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e 详解 Python 自动 化 运 维 量化 背景 、 基 础 与 体系 

e 涵盖 Ansible 、APScheduler、Paramiko Celery, 、Airflow 等 主流 运 维 工 具 
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随 着 IT 技术 的 进步 及 业务 需求 的 快速 增长 ， 服 务 器 也 由 几 十 台 上 升 到 成 百 上 千 台 ，IT 运 
维 自动 化 是 一 个 必然 的 趋势 。Python 是 当今 最 流行 的 编程 语言 之 一 ， 由 于 Python 语言 本 身 的 
优势 ,因此 在 编写 自动 化 程序 时 简单 、 高 效 ， 实 用 效果 立竿见影 。 目 前 开源 软件 社区 优秀 的 自 
动 化 运 维 软件 ， 如 Ansible, Airflow, Celery, Paramiko 等 框架 都 使 用 Python 语言 开发 ， 甚 至 
一 些 大 型 商用 的 自动 化 部 署 系统 都 有 Python 的 应 用 。 因 此 ， 学 好 Python， 不 仅 可 以 自己 编写 
自动 化 运 维 程序 , 而 且 可 以 对 开源 的 自动 化 运 维 工 具 进 行 二 次 开发 , 这 样 才能 在 就 业 严峻 的 市 
场 环境 中 具备 较 强 的 职场 竞争 力 。 

目前 市 场 上 介绍 Python 自动 化 运 维 的 图 书 并 不 多 ， 真 正 从 实际 应 用 出 发 ， 通 过 各 种 典型 应 用 
场景 和 项 目 案例 来 指导 读者 提高 运 维 开发 水 平 的 图 书 就 更 少 。 本 书 以 实战 为 主旨 ， 通 过 Python iz 
维 开 发 中 常见 的 典型 应 用 ( 近 百 个 场景 ) ， 让 读者 全 面 、 深 入 、 透 彻 地 学 习 Python 在 自动 化 运 维 
领域 的 各 种 热门 技术 及 主流 开源 工具 的 使 用 ， 提 高 实际 开发 水 平和 项 目 实战 能 力 。 


本 书 特 色 


1. 从 基础 讲 起 ， 适 合 零 基础 学 习 Python 运 维 的 读者 

为 了 便于 读者 理解 本 书 内 容 ， 从 基础 知识 开始 讲述 ， 并 结合 实际 应 用 ， 激 发 学 习 兴趣 , 提 
高 学 习 效率 。 

2. 涵盖 自动 化 运 维 的 主流 开源 工具 


本 书 涵盖 Ansible、APScheduler、Paramiko、Celery、Airflow、Docker 等 主流 运 维 工具 的 
架构 、 原 理 及 详细 使 用 方法 。 


3. 项 目 案例 典型 ， 实 战 性 强 ， 有 较 高 的 应 用 价值 

本 书 每 一 篇 都 提供 了 大 量 的 实战 案例 , 这 些 案 例 来 源 于 作者 开发 的 实际 项 目 , 具有 很 高 的 
应 用 价值 和 参考 性 ， 而 且 分 别 使 用 不 同 的 框架 组 合 实现 。 这 些 案例 稍 加 修改 ， 便 可 用 于 实际 项 
目 开发 中 。 


本 书 内 容 


第 1 章 自动 化 运 维 与 Python 
本 章 介绍 了 自动 化 运 维 的 背景 知识 、 相 关 的 开源 工具 及 如 何 构造 成 熟 的 自动 化 运 维 体系 。 


第 2 章 基础 运 维 
本 章 介绍 如 何 使 用 Python 处 理 文件 、 监 控 系 统 信息 、 监 控 文件 系统 、 调 用 外 部 命令 、 日 


Python 自动 化 运 维 快速 入 门 
志 记 录 、 搭 建 FTP 服务 器 、 发 送 邮 件 报警 等 实用 基础 运 维 技能 。 
第 3~5 章 多 进程 、 多 线程 、 协 程 
第 3~5 章 对 多 进程 和 多 线程 中 的 创建 方法 、 锁 、 信 号 量 、 事 件 、 队 列 、 进 程 池 、 线 程 池 、 
协 程 的 定义 和 使 用 、 适 用 场景 等 进行 了 详细 介绍 ， 并 配 有 示例 用 于 练习 和 实际 使 用 。 
第 7~10 章 开源 工具 的 使 用 方法 
第 7~10 章 主要 介绍 开源 工具 的 使 用 方法 ， 包 括 自动 化 运 维 工 具 Ansible、 定 时 任务 框架 
APScheduler、 执 行 远程 命令 架构 Paramiko、 分 布 式 任务 队列 Celery 及 任务 调度 平台 Airflow。 


第 11 章 Docker 容器 技术 

本 章 介 绍 高 级 运 维 工具 Docker, 包括 Docker 的 框架 、 原 理 、 所 能 解决 的 问题 、 安 装 部 署 、 
使 用 方法 等 ， 同 时 也 对 Docker 中 的 卷 、 卷 的 共享 、 如 何 自制 镜像 、Docker 网 络 配置 等 做 了 详 
细 介 绍 。 


示例 源 代码 
本 书 示例 源 代 码 下 载 地 址 请 扫描 右边 的 二 维 码 获 取 。 如 果 下 载 有 问题 ， 
请 联系 booksaga@163.com， 邮 件 主题 为 “Python 自动 化 运 维 快速 入 门 ”。 
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第 1 章 
自动 化 运 维 与 Python 


随 着 云 计算 、 自 动 化 及 人 工 智 能 时 代 的 来 临 ，Python 语言 也 成 为 当下 最 热门 的 语言 之 一 
本 章 首先 从 自动 化 运 维 展 开 , 介绍 自动 化 运 维 的 趋势 、 成 熟 的 自动 化 运 维 体系 构成 、 自 动 化 运 
维 相 关 的 优秀 开源 工具 ; 其 次 介绍 了 为 什么 选择 Python 语言 作为 自动 化 运 维 的 必 备 工具 ; 最 
后 重点 讲述 Python 的 安装 、 开 发 工具 、 基 础 语法 及 相应 的 实例 。 
方面 ， 随 着 IT 技术 的 飞速 发 展 ， 软 /硬件 的 设施 日 益 复杂 ， 企 业 的 运 维 压 力 随 之 上 升 ， 
自动 化 运 维 相 关 的 人 才 供 不 应 求 ; 另 一 方面 , 国内 Python 方面 的 人 才 也 非常 短缺 , 学 习 Python 
及 自动 化 运 维 ， 前 景 自然 非常 光明 。 除 此 之 外 ， 学 习 Python 不 仅 可 以 做 自动 化 工具 ， 还 可 以 
HOURS ala a. FEWER, Web 网 站 等 ， 因 此 本 章 关 于 Python 的 基础 知识 对 Python 初学 
者 也 非常 有 帮助 。 


自动 化 运 维 概述 


在 运 维 技术 还 不 成 熟 的 早期 , 都 是 通过 手工 执行 命令 管理 硬件 、 软 件 资源 , 但 是 随 着 技术 


而 自动 化 运 维 就 是 将 这 些 原本 大 量 重复 性 的 日 常 工作 自动 化 ,让 工具 或 系统 代 蔡 人 工 来 自动 完 
成 具体 的 运 维 工 作 ， 解 放生 产 力 ， 提 高 效率 ， 降 低 运 维 成 本 。 可 以 说 自动 化 运 维 是 当下 IT 运 
维 工 作 的 必 经 之 路 。 


1.1.1 自动 化 运 维 势 在 必 行 

自动 化 运 维 之 所 以 势 在 必 行 ， 原 因 有 以 下 几 点 : 

COD 手工 运 维 缺点 多 。 传 统 的 手工 执行 命令 管理 软 /硬件 资源 易 发 生 操 作风 险 ， 只 要 是 手 
工 操作 ， 难 免 会 有 失误 ， 一 且 执 行 错 误 的 命令 ， 后 果 可 能 是 灾难 性 的 。 当 软 /硬件 资源 增多 时 ， 
手工 配置 效率 低 ， 增 加 运 维 人 员 的 数量 也 会 导致 人 力 成 本 变 高 。 

(2) 传统 人 工 运 维 难以 管理 大 量 的 软 /硬件 资源 。 试 想 当 机 器 数目 增长 到 1000 台 以 上 时 ， 
仅 靠 人 力 来 维护 几乎 是 非常 困难 的 事情 。 
(3) 业务 需求 的 频繁 变更 。 现 在 的 市 场 瞬 息 万 变 ， 业 务 唯 有 快速 响应 市 场 的 需求 才能 可 持续 
发 展 ， 对 工具 的 需求 和 变更 更 是 会 越 来 越 多 ， 频 率 也 越 来 越 快 ， 程 序 逢 级、 上线、 变更 都 是 需要 运 
维 条 线 来 支撑 的 。 同 样 的 ， 只 有 借 力 自动 化 运 维 ， 使 用 工具 才能 满足 频繁 变更 的 业务 需求 。 
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(4) 自动 化 运 维 的 技术 已 经 成 熟 。 自 动 化 运 维 被 广泛 关注 的 一 个 重要 原因 就 是 自动 化 运 
维 的 技术 已 经 非常 成 熟 ， 技术 的 成 熟 为 自动 化 运 维 提供 了 智力 支持 。 云 计算 、 大 数据 一 方面 刺 
激 着 自动 化 运 维 的 需求 ， 另 一 方面 也 助力 自动 化 运 维 。 微 服务 的 软件 架构 、 容 器 等 技术 都 在 推 
动 自动 化 运 维 。 

(5) 工具 已 经 到 位 。 关 于 自动 化 运 维 的 工具 ， 无 论 是 开源 的 工具 还 是 企业 级 的 产品 ， 都 
是 应 有 尽 有 ， 实 现 自动 化 运 维 已 经 势不可挡 。 


1.1.2 ”什么 是 成 熟 的 自动 化 运 维 平台 
现在 成 熟 的 自动 化 运 维 平台 都 具备 哪些 要 素 呢 ? 一 般 来 说 ， 有 以 下 几 点 : 


(1) 需要 有 支持 混合 云 的 配置 管理 数据 库 (CMDB) 。CMDB 存储 与 管理 企业 IT 架构 
中 设备 的 各 种 配置 信息 , 它 与 所 有 服务 支持 和 服务 交付 流程 都 紧密 相连 ,支持 这 些 流程 的 运转 、 
发 挥 配置 信息 的 价值 ,同时 依赖 于 相关 流程 保证 数据 的 准确 性 。 现 在 更 多 的 企业 选择 将 服务 器 
资源 放 在 云 上 , 无 论 是 公有 云 还 是 私有 云 都 提供 资源 管理 接口 , 利用 这 些 接口 构建 一 个 自动 化 
的 CMDB， 同 时 增加 日 志 审 计 功能 ， 通 过 接口 对 资源 的 操作 都 应 该 记录 ， 供 后 续 审计 。 

(2) 有 完备 的 监控 和 应 用 性 能 分 析 系 统 。 运 维 离 不 开 监 控 和 性 能 分 析 。 资 源 监控 (如 服 
务 器 、 磁盘、 网 络 ) 和 性 能 监控 (如 中 间 件 、 数据 库 ) 都 是 较为 基础 的 监控 , 开源 工具 有 Zabbix, 
Nagios、OpenFalcon〔 国 产 ) 。 应 用 性 能 分 析 ， 如 某 些 Web 请 求 的 响应 速度 、SQL 语句 执行 
的 快慢 等 对 于 问题 的 定位 是 非常 有 帮助 的 , 开源 工具 有 pinpoint、zipkin、cat; 商业 工具 有 New 
Reclic、Dynatrace。 

(3) 需要 具备 批量 运 维 工具 。 如 何 有 效 降低 运 维 的 成 本 呢 ， 肯定 是 更 少 的 人 干 更 多 的 活 。 
批量 运 维 工具 可 有 效 节 省 大 量 人 力 ， 使 用 少量 的 人 管理 大 量 的 服务 器 软 /硬件 资源 成 为 可 能 。 
开源 的 批量 运 维 工 具有 ansible、saltstack、puppet、chef， 其 中 ansible 和 saltstack 纯 由 Python 
编写 ， 代 码 质量 和 社区 活跃 程度 都 很 高 ， 推 荐 使 用 。 

(4) 需要 有 日 志 分 析 工 具 。 随 着 服务 器 的 增多 ， 日 志 的 采集 和 分 析 成 了 运 维 中 的 难点 ， 
试想 如 何 快速 地 从 成 百 上 千 台 服务 中 采集 日 志 并 分 析出 问题 所 在 呢 ? 日 志 采 集 方面 工具 有 
Sentry， 也 是 纯 由 Python 打造， 日 志 分 析 有 ELK， 两 者 都 是 开源 的 。 

(5) 需要 有 持续 集成 和 版 本 控制 工具 。 持 续集 成 是 一 种 软件 实践 ， 团 队 成 员 经 常 集成 他 
们 的 工作 , 每 次 集成 都 通过 自动 化 的 构建 来 验证 ， 从 而 尽早 发 现 集成 错误 。 持 续集 成 的 工具 有 
Hudson. CruiseControl, Continuum, Jenkins 等 。 版 本 控制 是 软件 开发 中 常用 的 工具 ， 比 较 著 
名 的 是 svn, git. 

(6) 还 要 有 漏洞 扫描 工具 。 借 助 商业 的 漏洞 扫描 工具 扫描 漏洞 ， 保 护 服务 器 资源 不 受 外 
界 的 攻击 。 


1.1.3 ”为 什么 选择 Python 进行 运 维 


为 什么 选择 Python 作为 运 维 方面 的 编程 语言 呢 ? 网 络 上 不 乏 已 经 开发 好 的 运 维 软件 ， 但 
是 运 维 工 作 复杂 多 变 , 已 有 的 运 维 软件 不 可 能 穷尽 所 有 的 运 维 需 求 , 总 有 一 些 运 维 需求 需要 运 
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维 人 员 自 己 去 编写 程序 解决 , 这 样 做 运 维 很 有 必要 学 会 一 门 编程 语言 来 解决 实际 问题 , 让 程序 
代替 人 力 去 自动 运 维 ， 减 轻重 复工 作 ， 提 高 效率 。 接 下 来 ， 选 择 哪 一 门 语 言 合适 呢 ? 当然 是 选 
一 门 学 习 成 本 低 、 应 用 效果 高 的 ， 这 方面 Python 的 性 价 比 最 高 ， 原 因 是 : 一 方面 ， 大 部 分 的 
开源 运 维 工具 都 是 由 纯 Python 编写 的 ， 如 Celery, ansible, Paramiko, airflow 等 ， 学 习 Python 
后 可 以 更 加 顺畅 地 使 用 这 些 开源 工具 提供 的 API, 可 以 阅读 这 些 开 源 工 具 的 源 代 码 ， 甚 至 可 以 
修改 源 代码 以 满足 个 性 化 的 运 维 需 求 ， 另 一 方面 ，Python 与 其 他 语言 相 比 ， 有 着 以 下 优势 。 


简单 、 易 学 。 阅 读 Python 程序 类 似 读 英 文 ， 编 码 上 避免 了 其 他 语言 的 烦琐 。 

更 接近 自然 的 思维 方法 ， 使 你 能 够 专注 于 解决 问题 而 不 是 语法 细节 。 

规范 的 代码 ，Python 采用 强制 缩 进 的 方式 使 得 代码 具有 较 好 的 可 读 性 。 

Python 拥有 一 个 强大 的 标准 库 和 让 富 的 第 三 方 库 ， 拿 来 即 用 ， 无 须 重 复 造 轮子 。 
可 移植 性 高 ，Linux、UNIX、Windows、Android、Mac OS 等 一 次 编写 ， 处 处 运行 。 
实用 效果 好 ， 学 习 一 个 知识 点 ， 能 够 直接 实战 一 一 用 在 工作 上 ， 立 竿 见 影 。 
潜移默化 ， 学 习 Python 能 够 顺利 理解 并 学 习 其 他 语言 。 


Python 也 是 最 具 潜 力 的 编程 语言 ,在 2018 年 IEEE 发 布 的 顶级 编程 语言 排行 榜 中 ，Python 
排名 第 一 ， 如 图 1.1 所 示 。 而 图 1.2 表明 ，Python 现在 已 成 为 美国 名 校 中 最 流行 的 编程 入 门 语 
fi. ANSI / ISO C + + 标准 委员 会 的 创始 成 员 Bruce Eckel 曾 说 过 : “life is short, You need 
Python。” 一 度 成 为 Python 的 宣传 语 ， 这 正 是 说 明 Python 有 着 简单 、 开 发 速度 快 、 节 省 时 间 
和 精力 的 特点 。 另 外 ， 了 Python 是 开放 的 ， 也 是 开源 的 ， 有 很 多 善良 可 爱 的 开发 者 在 第 三 方 库 
贡献 了 自己 的 源 代 码 ， 许 多 功能 都 可 以 直接 拿 来 使 用 ， 无 须 重新 开发 ， 这 也 是 Python 的 强大 


之 处 。 
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图 1.1 IEEE Spectrum 给 出 的 编程 语言 排行 榜 
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Number of top 39 US. computer science departments 
that use each language to teach introductory courses 
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图 1.2 在 美国 名 校 编程 语言 的 流行 情况 
下 面 摘抄 一 段 Python 在 维基 百科 中 的 介绍 。 


Python 是 完全 面向 对 象 的 语言 。 函 数 、 模 块 、 数 字 、 字 符 串 都 是 对 象 ， 并 且 完 全 支持 继 
承 、 重 载 、 派 生 、 多 继承 ， 有 益 于 增强 源 代 码 的 复 用 性 。 由 于 Python 支持 重 载运 算 符 ， 因 此 
Python 也 支持 泛 型 设计 。 相 对 于 Lisp 这 种 传统 的 函数 式 编程 语言 ，Python 对 函数 式 设 计 只 提 
供 了 有 限 的 支持 。 有 两 个 标准 库 Cfunctools, itertools) 提供 了 Haskell 和 Standard ML 中 久 经 考 
验 的 函数 式 程序 设计 工具 。 

虽然 Python 被 粗略 地 分 类 为 “脚本 语言 ”(Script Language) ， 但 实际 上 一 些 大 规模 软件 
开发 项 目 ， 如 Zope. Mnet 及 BitTorrent 及 Google 也 广泛 地 使 用 它 。Python 的 支持 者 喜欢 称 它 
为 一 种 高 级 动态 编程 语言 ， 原 因 是 “脚本 语言 ” 泛 指 仅 作 简单 程序 设计 任务 的 语言 ， 如 shell 
script. VBScript 等 只 能 处 理 简单 任务 的 编程 语言 ， 并 不 能 与 Python 相提并论 。 

Python 本 身 被 设计 为 可 扩充 的 ， 并 非 所 有 的 特性 和 功能 都 集成 到 语言 核心 。Python 提供 
了 丰富 的 API 和 工具 ， 以 便 程 序 员 能 够 轻松 地 使 用 C、C++、Cython 来 编写 扩充 模块 。 由 于 
Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 内 ， 因 此 很 多 人 还 把 Python 作为 
一 种 “胶水 语言 ” (Glue Language) 使 用 ， 即 使 用 Python 将 其 他 语言 编写 的 程序 进行 集成 和 
封装 。 

在 Google 内 部 的 很 多 项 目 中 ， 比 如 Google Engine 使 用 C++ 编写 性 能 要 求 极 高 的 部 分 ， 
然后 使 用 Python 或 Java/Go 调用 相应 的 模块 。(Python 技术 手册 》 的 作者 马 特 利 (Alex Martelli) 
说 : “这 很 难 讲 ， 不 过 在 2004 f£, Python 已 在 Google 内 部 使 用 ，Google 招募 了 许多 Python 
高 手 , 但 在 这 之 前 就 已 决定 使 用 Python. 他 们 的 目的 是 尽量 使 用 Python, 在 不 得 已 时 改 用 C++; 
在 操控 硬件 的 场合 使 用 C++， 在 快速 开发 时 使 用 Python。” 

一 些 技术 术语 不 理解 没关系 ，Python 是 许多 大 公司 都 在 使 用 的 语言 ， 如 Google, NASA, 
FF. GRE, 552] Python 会 有 很 大 的 用 武之 地 ， 完 全 不 用 担心 它 的 未 来 。 

Python 的 设计 哲学 是 优雅 、 明 确 、 简 单 。 提 倡 最 好 使 用 一 种 方法 做 一 件 事 ，Python 的 开 
发 者 一 般 会 拒绝 花哨 的 语法 ， 选 择 明 确 而 很 少 有 歧义 的 语法 。 下 面 再 摘 一 段 Python 格言 : 


Beautiful is better than ugly. 
Explicit is better than implicit. 
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Simple is better than complex. 

Complex is better than complicated. 

Flat is better than nested. 

Sparse is better than dense. 

Readability counts. 

Special cases aren't special enough to break the rules. 

Although practicality beats purity. 

Errors should never pass silently. 

Unless explicitly silenced. 

In the face of ambiguity, refuse the temptation to guess. 

There should be one-- and preferably only one --obvious way to do it. 
Although that way may not be obvious at first unless you're Dutch. 
Now is better than never. 

Although never is often better than *right* now. 

If the implementation is hard to explain, it's a bad idea. 

If the implementation is easy to explain, it may be a good idea. 
Namespaces are one honking great idea -- let's do more of those! 


上 面 的 格言 来 自 Python 官方 ， 也 有 中 文 版 本 ， 如 下 : 


MAMF LMA, HREF Rene, 
简单 胜 于 复杂 ， 复 杂 胜 于 繁 芜 ， 
MEF RE, MRF ER, 

可 读 性 很 重要 。 

虽然 实用 性 比 纯粹 性 更 重要 ， 

但 特例 并 不 足以 把 规则 破坏 掉 。 
错误 状态 永远 不 要 忽略 ， 

除非 你 明确 地 保持 沉默 ， 

ARSL, KERE. 

最 佳 的 途径 只 有 一 条 ， 然 而 他 并 非 显而易见 
置之不理 或 许 会 比 慌忙 应 对 要 好 ， 
然而 现在 动手 远 比 束手无策 更 好 。 
难以 解读 的 实现 不 会 是 个 好 主意 ， 
容易 解读 的 或 许 才 是 。 

名 字 空 间 就 是 个 “ 顶 哌 哌 ”的 好 主意 。 
让 我 们 想 出 更 多 的 好 主意 ! 


Python 如 此 优秀 ， 让 我 们 一 起 来 学 习 吧 。 


谁 叫 你 不 是 荷兰 人 ? 
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1.2. ain python 


如 果 读 者 已 经 了 解 并 正在 使 用 Python， 则 可 以 略 读本 章 ; 如 果 是 第 一 次 听 说 Python, AB 
也 完全 不 必 担心 ，Python 是 一 门 优雅 而 易学 的 编程 语言 ， 即 使 零 基 础 学 Python， 也 能 丝毫 不 


输 于 科班 出 身 的 程序 员 。 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 荷兰 人 Guido van Rossum 于 
1989 年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 1991 年 。 面 向 对 象 如 果 不 理解 可 先 不 去 理会 ， 在 实际 
使 用 的 过 程 中 去 理解 它 , 解释 型 语言 表明 Python 不 需要 预先 编译 成 字 节 码 而 是 由 Python 虚拟 
机 直接 执行 ， 当 然 Python 也 完全 可 以 先 编译 成 字 节 码 来 适当 提高 装载 速度 。 总 之 ，Python 是 


一 种 高 级 编程 语言 ， 其 他 高 级 语言 能 实现 的 功能 ，Python 都 能 方便 、 快 捷 地 实现 。 


Python 目前 有 两 个 版 本 : P 


ython 2 和 Python 3。 至 于 选择 哪个 版 本 ， 完 全 不 用 纠结 ， 建 议 


新 手 选择 Python 3.x， 因 为 Python 3 AK, Python 2 将 会 在 2020 年 终止 支持 (还 可 以 用 ， 
但 不 更 新 了 ) ， 高 手 也 尽 可 能 选择 Python 3，Python 3 与 Python 2 相 比 有 更 多 的 优化 。Python 
2 与 Python 3 之 间 区 别 不 是 很 大 ， 而 且 有 脚本 可 以 直接 将 Python 2 的 代码 转 成 Python 3. 


1 .3 Python 环境 搭建 


Python 编写 的 源 代码 要 想得到 运行 的 结果 ， 就 需要 安装 解释 Python 源 代码 的 软件 ， 由 其 
翻译 成 机 器 语言 并 提交 操作 系统 运行 ， 我 们 通常 称 之 为 Python 解释 器 或 Python 编程 环境 。 

我 们 从 Python 官方 网 站 https://www.python.org/ 的 下 载 页 面 了 解 到 目前 有 两 个 版 本 ， 即 
Python2.7.x 与 Python3.x。 作 为 初学 者 ， 我 们 要 学 就 学 最 新 的 Python3x， 目 前 绝 大 多 数 
Python2.7.x 的 第 三 方 库 已 经 移植 到 Python3.x 中 了 ， 如 果 遇 到 个 别 仅 有 Python2.7.x 支持 的 ， 
我 们 也 可 以 对 代码 稍 做 修改 在 Python3.x 下 运行 。 本 书 以 Python3.6.5 为 例 ， 讲 解 在 Windows 
系统 和 Linux 系统 下 安装 Python 的 详细 步骤 。 


1.3.1 Windows 系统 下 的 Python 安装 
在 Windows 系统 下 安装 Python 非常 简单 ， 具 体 步骤 如 下 。 
(1) FR. Æ Python 官方 网 站 https://www.python.org/ 中 下 载 Windows 安装 包 。 如 果 


Windows 操作 系统 是 64 位 ， 对 


应 的 下 载 链接 是 https://www.python.org/ftp/python/3.6.5/python- 


3.6.5-amd64.exe; 如 果 Windows 操作 系统 是 32 位 ， 对 应 的 下 载 链接 是 https://www.python.org/ 


ftp/python/3.6.5/python-3.6.5.exe 


(2) 双击 下 载 文件 并 进行 安装 ， 能 选择 如 图 13 所 示 ， 建 议 都 选择 ， 无 非 就 是 多 占用 一 


点 磁盘 空间 ， 对 电脑 性 能 没有 人 各 


E 何 影响 。 单 击 Next 按钮 后 如 图 1.4 所 示 ， 将 Python 添加 至 环 


境 变量 中 ， 方 便 在 命令 行 中 快速 启动 Python， 再 单 击 Install 按钮 ， 等 待 安装 完毕 ， 如 图 1.5 所 
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示 。 其 中 disable path length limit 表示 禁用 路 径 长 度 限制 ， 


单 击 Close 按钮 结束 安装 。 


是 设置 环境 变量 Path 的 ， 可 忽略 ， 


IS Python 3.6.5 (64-bit) Setup = x 


Optional Features 
Documentation 


Installs the Python documentation fie. 


Bopp 
Installs pip. which can download and install other Python packages. 
e E td/tk and IDLE 


Installs tkinter and the IDLE development environment. 


EZ Python test suite 
Installs the standard library test suite. 


E py launcher 回 for all users (requires elevation) 
Installs the global ‘py’ launcher to make it easier to start Python. 
E 1 r | 
windows | me [NN 


图 1.3 选择 功能 


|» Python 3.6.5 (64-bit) Setup = x 


Advanced Options 
Install for all users 
口 Assoaate files with Python (requires the py launcher) 
C Create shortcuts for installed applications 
EZ Add Python to environment variables 
O Precompile standard library 
C Download debugging symbols 
C Download debug binaries (requires VS 2015 or later) 


Customize install location 
‘CAUsers\yx\AppData\Local\Programs\Python\Python36 || Browse 
puth You wil require write permissions for the selected location 


wind — Le] Few j| Cams | 


图 1.4 将 Python 添加 至 环境 变量 


|» Python 3.6.5 (64-bit) Setup = x 


J Setup was successful 


Special thanks to Mark Hammond, without whose years of 
freely shared Windows expertise. Python for Windows would 
still be Python for DOS. 


New to Python? Start with the online tutorial and 
documentation. 


See what's new in this release. 


- © Disable path length limit 
Changes your machine configuration to allow programs, including Python, 
to bypass the 260 character "MAX PATH" limitation. 
pyth 
wind [see | 


图 1.5 安装 成 功 


(3) 验证 。 在 cmd 命令 窗口 输入 python， 并 在 >>> 提 示 符 后 输入 print(^hello python”), 
i RATED “hello python” 信 息 ， 就 表明 安装 成 功 ， 输 入 exit0 可 退出 Python 解释 器 环境 ， 在 
cmd 命令 窗口 输入 where python 可 查看 python 可 执行 文件 所 在 的 路 径 ， 如 图 1.6 所 示 。 


图 1.6 验证 


(4) 创建 虚拟 环境 。 前 三 步 已 经 把 Python 环境 安装 好 了 ， 但 是 在 实际 开发 Python 应 用 
程序 时 可 能 会 遇 到 这 种 情形 : 项目 A 依赖 Djangol1.10.1， 而 项 目 B 依赖 Django2.0。 如 果 不 创 
建 虚拟 环境 的 话 ， 运 行 项 目 A 时 安装 Djangol.10.1, 运行 项 目 B 时 先 卸 载 Django1.10.1， 再 安 
装 Django2.0， 然 后 运行 项 目 A 时 ， 再 次 重复 操作 ， 这 样 就 会 显得 很 笨拙 。Python 已 经 为 您 想 
好 了 解决 方案 一 一 创建 虚拟 环境 ， 每 个 项 目 一 个 独立 的 环境 ， 这 样 井 水 不 犯 河水 ， 合 平 共处 ， 
互 不 干扰 。 

Windows 创建 虚拟 环境 的 方法 : 在 cmd 窗口 中 顺序 执行 以 下 命令 (# 后 面 表示 注释 ， 执行 


命令 时 要 去 掉 ) 。 


pip install virtualenv # 安 装 virtualenv 虚拟 环境 工具 

python -m pip install --upgrade pip # 升 级 pip 

virtualenv projectA env # 创 建 projecta 的 虚拟 环境 

.\projectA env\Scripts\activate.bat HAZ) projectA 的 虚拟 环境 , 启动 成 功 后 命令 提 
示 符 有 一 个 后 缀 (projectA env) 。 

where python HEURE AT PUT CHE python 的 位 置 ， 第 1 个 为 当前 运行 的 ， 
也 可 以 直接 使 用 绝对 路 径 来 运行 projectA 

deactivate # 退 出 projectA 的 虚拟 环境 


运行 结果 如 图 1.7 所 示 。 


1 


图 1.7 创建 虚拟 环境 
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n virtualenv 是 如 何 创建 独立 的 Python 运行 环境 的 呢 ? 原理 很 简单 , 就 是 把 系统 Python 复制 
一 份 到 虚拟 环境 。 使 用 命令 .\projectA_env\bin\activate.bat 进入 一 个 projectA 虚拟 环境 时 ， 
| virtualenv 会 修改 相关 环境 变量 ， 让 命令 python 和 pip 均 指 向 当前 的 projectA 虚拟 环境 。 


1.3.2 Linux 系统 下 的 Python 安装 


大 多 数 Linux 系统 已 经 预 装 了 Python， 直 接 在 终端 窗口 输入 python 即 可 查看 版 本 CLA 
1.8) 。 以 Ubuntu16.04 为 例 ， 运 行 python 命令 。 


aaron@ubuntu: ~ 


图 1.8 Ubuntu 已 预 装 了 Python2.7.12 
Ubuntu16.04 已 经 预 装 了 Python3.3.2， 如 图 1.9 所 示 。 


aaron@ubuntu: ~ 


图 1.9 Ubuntu 已 预 装 Python3.5.2 


E 元 对 比 图 1.8 和 图 1.9 可 以 看 出 : Python 2 中 print 是 一 条 语句 , Python 3 中 print 是 一 个 函数 。 | 


如 果 想 省 事 ， 则 可 以 直接 使 用 Python3.5 来 学 习 ; 如 果 喜 欢 使 用 自己 安装 的 Python， 则 可 
以 按 以 下 步骤 进行 操作 。 
ED) 下 载 源 代码 包 : wget http://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz, 如 图 1.10 
所 示 。 如 果 下 载 其 他 版 本 ， 直 接 把 版 本 号 修改 一 下 即 可 


图 1.10 下 载 Python3.6.5 


GEI 解压 浙 代 码 包 。 
tar -zxvf Python-3.6.5.tgz 
EID 编译 与 安装 。 


cd Python-3.6.5 # 进 入 解压 后 的 目录 

./configure --prefix-/home/aaron/local/python3.6.5 # 指 定安 装 目 录 ， 一 般 为 /usr/local， 
这 里 改 成 home 下 的 目录 

make&&make install # 编 译 并 安装 


E 如 果 提示 缺少 相关 的 包 ， 如 zlib 等 ， 请 下 载 后 再 编译 安装 。 | 


€o) 验证 : 输入 /home/aaron/local/python3.6.5/bin/python3， 并 打印 “hello,python3! ", 4 
图 1.11 所 示 


图 1.11 Linux 编译 安装 Python 后 验证 
这 样 带路 径 的 输入 太 长 ， 有 两 种 方法 可 以 解决 输入 麻烦 的 问题 。 第 一 种 是 将 Python3.6.5 
的 路 径 /home/aaron/local/python3.6.5/bin 添加 到 环境 变量 中 。 在 terminal 中 顺序 执行 以 下 命令 ， 
注意 # 后 面 的 内 容 是 注释 ， 结 果 如 图 1.12 所 示 。 


cd ~ # 切 换 到 主 目录 

echo "#my python 3.6.5" >>.profile # 在 profile 末尾 添加 注释 

echo "export PATH=\"$PATH: $HOME/1local/python3.6.5/bin\"" >>.profile # 在 profile 
末尾 添加 环境 变量 /home/aaron/local/python3.6.5/bin， 下 次 启动 自动 生效 

source .profile # 使 环境 变量 立即 生效 

python3.6 # 进 入 Python 交互 式 环境 

which python3.6 # 查 看 是 可 执行 文件 Python3 .6 所 在 的 位 置 


图 1.12 为 Python 添加 环境 变量 


第 二 种 是 建立 软 链接 。 在 terminal 中 执行 : 


sudo ln -s /home/aaron/local/python3.6.5/bin/python3.6 /usr/bin/python3.6# 建 立 
python3.6 的 软 连接 。 
sudo ln -s /home/aaron/local/python3.6.5/bin/pip3.6 /usr/bin/pip3.6# 建 立 pip3.6 


的 软 连接 。 
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Eo 创建 虚拟 环境 : 在 terminal 中 顺序 执行 以 下 语句 。 


which pip3.6# 查 看 pip3.6 的 位 置 
pip3.6 install virtualenv 


iz 如 果 这 一 步 报 /home/aaron/xxx/python3.6 找 不 到 错误 , 请 编辑 上 一 步 路 径 中 的 pip3.6 x fF, 
| 将 第 一 行 改 为 安装 路 径 中 的 python3.6， 本 例 中 为 #!/home/aaron/local/python3.6.5/bin/ 


python3.6. 


如 果 报 subprocess.CalledProcessError: Command 'Isb. release -a' returned non-zero exit status 
1 的 错误 ， 则 执行 : 


ln -s /usr/share/pyshared/lsb release.py 
/home/aaron/local/python3.6.5/lib/python3.6/site-packages/1sb_ release.py 


这 一 步 把 原 有 的 Isb_release.py 链接 到 我 们 安装 的 路 径 下 ， 然 后 执行 : 


pip3.6 install virtualenv 
virtualenv -p python3.6 projectA env 
source projectA env/bin/activate 


这 里 的 -p 参数 表示 指定 Python 编译 器 的 版 本 ，Python3.6 是 指向 我 们 安装 的 
/home/aaron/local/python3.6.5/bin/python3.6， 输 入 


deactivate 


退出 projectA 的 虚拟 环境 ， 完 整 过 程 如 图 1.13 所 示 。 


图 1.13 ”为 编译 安装 的 Python 创建 虚拟 环境 


开发 工具 介绍 


工 欲 善 其 事 必 先 利 其 器 ， 虽 然 我 们 可 以 通过 简单 的 编辑 器 来 编写 python 代码 ,但 是 如 果 有 开 
发 工具 的 帮助 ， 那 么 编码 效率 就 会 事半功倍 。 本 节 介 绍 两 款 主流 的 开发 工具 PyCharm 和 Vim。 


13 


Python 自动 化 运 维 快速 入 门 


1.4.1 PyCharm 


PyCharm 是 由 JetBrains 公司 专门 为 Python 打造 的 一 款 开发 工具 ， 具 备 调试 、 语 法 高 亮 、 
项 目 管理 、 代 码 跳 转 、 智 能 提示 、 自 动 完成 、 单 元 测试 、 版 本 控制 等 功能 ， 
Linux, Windows, Mac OS 下 面 都 可 以 使 用 ， 强 烈 建议 初学 者 选择 PyCharm 作为 Python 开发 


工具 ， 可 以 极 大 地 提高 编码 效率 ， 减 少 错误 出 现 。 


而 且 跨 平 台 ， 


在 


另外 , PyCharm 还 提供 了 一 些 很 好 的 功能 用 于 Django 开发 , 同时 支持 Google App Engine, 
更 酷 的 是 ，PyCharm 支持 IronPython. 


PyCharm 有 两 个 版 本 : 专业 版 〈 收 费 ) 和 社区 版 (免费 ) 。 
http://wwwjetbrains.com/PyCharm/download/， 社 区 版 足以 满足 日 常 开 发 需要 。 本 节 以 社 


PyCharm2017.2.3 版 本 为 例 ， 介 绍 PyCharm 的 基本 使 用 方法 。 


(1) 安装 。 从 官方 网 站 下 载 ， 按 照 提 示 一 步 步 安 装 即 可 ， 非 常 简单 。 
(2) 新 建 项 目 。 启 动 PyCharm， 如 图 1.14 所 示 ， 单 击 Create New Project， 输 入 项 目 路 径 
和 编译 器 的 路 径 , 编译 器 我 们 选择 上 一 节 创 建 的 虚拟 环境 projectA_env， 如 图 1.15 所 示 ， 以 免 
安装 第 三 方 包 影响 其 他 应 用 程序 。 在 项 目 特别 多 时 ， 使 用 虚拟 环境 是 个 绝 佳 的 选择 。 


官 


方 下 载 地 址 
区 


Bill Welcome to PyCharm Community Edition 


PyCharm Community Edition 


3 Create New Project 


S= Open 


A Check out from Version Control ~ 


% Configure ~ Get Help ~ 


图 1.14 创建 新 项 目 


Bi New Project - x 
location:  [CAUsersyo\PycharmProjectsyisobaiya] Tesi opem 3 
Interpreter: | 二 3.6.5 at \orojetA env fe ae A vie 

=] 


图 1.15 选择 虚拟 环境 projectA_env 


版 


(3) 添加 Python 文件 、 编 译 


: 鼠标 右键 单 击 项 目 名 称 ， 选 择 New->Python file, 


入 名 称 hellopython.py， 添 加 内 容 后 ， 编 译 并 运行 ， 如 图 1.16~ 图 1.18 所 示 。 


Bl helopython - [CNUsers\hello\pycharmprojects\hellopython] - PyCharm Community Edition 2017.2.3 - D x 
Ele Edit View Navigate Code Refactor Run Tools VCS Window Help 


ds. 


X Cut Co:X | Bs New Scratch File — Ctrl+Alt+Shift+Insert 
D Copy guise | M Directory 
Copy Path Ctrl+Shitt+c | P3 Python Package 
Copy Relative Path Cirle Alt+ Shift+C 
Gil Paste. Cty 
Find in Path... Ctrl+Shift+F 
Replace in Path... Ctrl+Shift+R. 
Inspect Code... 
Clean Python Compiled Files 
Add to Favorites , 
Show Image Thumbnails Ctrl+Shift+T 
tea Is " i © Help Make PyCharm Community Edition Be 
QD Synchronize helopython Ta lapaa piar pana we di fice 
Show in Explorer to collect data on the plugins and features 
Directory Path Cirl+Alt+F12 you use. No personal data will be collected. 
compar Wi RT Cre EE 
UID) ud | Share Anonymous Statistics || Don't Share 
( Create Gist... 
TO Creates a Python file from the specified template Scanning files to index CEESEESSSESS)| và 
图 1.16 添加 Python 文件 
Ell hellopython - [C:\Users\hello\PycharmProjects\hellopython] - ..\hellopython.py - PyCharm Community Edition 2017.2.3 - a x 
File Edit View Navigate Code Refactor Run Tools VCS Window Help 
B hellopython > | hellopython.py > 
Project ~ © | HIF | Bhellopythonpy = | 
vim hellopython C:\Users\hello\PycharmProject! 1 AZencoding-utf-8 = 
vellopyth 2 
> lli External Libraries 3 print("hello, python") Copy Reference CuisAReShiftsC | — 
A Baste Ctrl+V 
Paste from History... Clé Shifte V 
Paste Simple Ctrl Alte Shift V 
Column Selection Mode Alt+Shift+insert 
Alte FT 
» 
Li 
» 
Run È hellopython Alteinsert | 


>|  C:\Users\hello\AppData\Local \Programs \Python\Python36 \python . 


5 ?py 
ale hello, python Carl+Shift+F10 


= E Process finished with exit code 0 ® Save 'hellopython" 
Local History > 
?* Execute Line in Console. Alte Shift+E 
x Ít Compare with Clipboard 
T File Encoding 
© Create Gist.. — 
加 PEP 8: no newline at... “+ Updating skeletons for C:\Users\hello\AppData\Local\Prog... © J ma Urs 6 wu 


117 运行 
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Pyt 


n 自动 化 运 维 快速 入 门 


il ecbaiw - [C:\Usersten\PycharmProjects\xiactaiyel - -Meliopython py - PyCharm Community Edition 2017.23 
Bie Edit View Navigate Code Refactor Run Toole VCS Window Help 


s 
 print("hetto, python") 


TUE P 


Jun ^ nehoman 


| + C:\Users\xx\projectA_env\Scripts\python.exe C:/Users /xx/PycharmProjects/xiacbaiyw/hellopython.py 
|. hello, python 


co 
u S Process finished with exit code 9 
tele 
zia 
E 
«t 
GS Pyhoncomole Tema MEIERI 全 srcoo prm 
EREET] 


图 1.18 查看 运行 结果 


(4) 方便 的 命令 窗口 : 单 击 界面 下 方 的 Terminal， 出 现 一 个 类 似 于 cmd 命令 的 窗口 ， 在 
这 里 可 以 快速 调用 系统 命令 、pip 等 ; 单 击 界面 下 方 的 Python Console， 出 现 Python 解释 器 的 
界面 ， 这 里 可 以 对 一 些 Python 语句 进行 测试 等 ， 如 图 1.19 和 图 1.20 所 示 。 
Bi sects - 1C \Userso yeharmprjeees sino bebel -Weliophon py - Pham Community Edition 201723 


- a x 
File Edit View Navigate Code Relactor Ryn Took VES Window Help 
(ee alaobalyw > iÈ helopithon py 


Fa 


m 
1 | encod, 8 E 
us H 
3 printi"hello, python"), n 
: EX 
十 |(c) 2017 Microsoft Corporation. &EBIBEA. 
x 
|(projectA env) C:\Users\xx\Pycharm?rojects\xtaobaiywopip -help 
Usage: 
pip «command» [options] 
Commands : 
i install Install packages. 
[i download Download packages. 
P uninstall Uninstall packages. 
P Pyron consoe EMA) bean Toco T ment iog 
E] Pc ne newline at erd of fle am n. mía & B 


图 1.19 Terminal 窗口 


第 1 章 自动 化 运 维 与 Python 


i siscisipe sors chem ree nci] ~~ \hebopython py PYCharm Community Eston 201723 zE R 
Fle Edit View Navigate Code Refactor Run Took VCS Window Heip 
B aiaobaiy > iÈ helopython ey ol a 
Trepa SELE E] dracpdesz » | z 
JS sastsolialya Catenion tencodingutt -E alg 
i helopython py B 
> Mh sternal Ubraries  print("hetio, python" H 


‘ton mci vh 
& C:\Users\xx\projectA_env\Scripts\python-exe "C:\Program Files\JetBrains\PyCharm Community Edition 2017.2.3\helpers\pydev\pydevconso] 
m Python 3.6.5 (v3.6.5:159c0932b4, Mar 28 2018, 17:00:18) [NSC v.1960 64 bit (AND64)] on win32 

[>>> a-'helle';b-b'hello* 

>>> print(a,type(a) ,b,type(b)) 
P netto <class 'str'» b'hello' «class 'bytes'» 


3>] 


+988 


| E zi Favorites 


OO ums Rien Rire [erm] 


[5] 


[1 


图 1.20 Python Console 窗口 


(5) WE: 单 击 菜单 File->Settins， 弹 出 如 图 121 所 示 的 窗口 ， 从 上 到 下 依次 是 显示 设 
和 置 、 键 盘 映 射 、 编 辑 器 设置 (字体 、 颜 色 、 配 色 方案 ) 、 插 件 、 版 本 控制 工具 设置 、 项 目 设置 
(会 项 目 所 用 编译 器 ， 项 目 结构 设置 ) 、 编 译 执行 设置 、 语 言 & 框 架 、 工 具 设置 。 


ll settings x 
| 

a Languages & Frameworks © For current project 

Configure the settings related to specific frameworks and technologies used in your project. 


‘Schemas and DTDs 
Jupyter Notebook 


9 L9] es 
图 121 PyCharm 的 设置 窗口 


PyCharm 使 用 起 来 十 分 简单 、 方 便 ， 学 习 成 本 也 非常 低 ， 适 合 初学 者 快速 入 门 ， 但 缺点 
是 启动 时 有 些 慢 ， 进 程 运行 久 了 也 会 变 得 卡 顿 。 
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1.4.2 Vim 


Vim 是 一 款 轻 量 级 强大 的 


读者 可 以 多 查看 Vim 的 帮助 文档 ， 


是 n didi ， 这 是 
青 参 


帮 


文本 编辑 器 ， 本 身 附带 详细 的 英文 帮助 文档 ， 初 次 使 用 Vim 的 
对 我 们 理解 vim 的 快捷 命令 非常 有 帮助 。vim 的 
ELI Ubuntu16.04 为 例 介绍 如 何 Vim 打造 为 Python 的 编程 工 


系统 i 


Windows 4 


(1) 安装 Vim: 

按 Ctr-Alt+T 
就 不 
sudo apt-get remove vim-t 


apt-get update 
apt-get install vim 


安 
“+python3” 


而 


如 果 是 其 他 版 本 的 Linux 


则 下 载 gvim80.exe 进行 安装 ， 
jaaron@ubuntu:~$ vin verst 
VIM - Vi IMproved 7.4 (2013 
Included petchws: 3-1 

Ertra patches: 8.0.0856 
Modified 
ton’ with GTK2-CNOME 
efarst 
SUIS Arp 
«find in pa 
tfloat 
+fotdtng 
toutes 


Huge ver 
«aci 
«arabic 
+autocmd 
+balloon_e 
+brol 
++butltt 


input 


exp 


+dialog_ 
+diff 
+digraphs 
+dnd 
ebcdi 


MR 
fall-back 
Compilation 


(2) Vim 模式 : 有 两 种 模式 ， 按 下 Esc 键 进 入 命令 模式 ; 按 下 i Bk insert 键 
(插入 模式 ) 。Vim 的 基本 操作 ， 如 移动 、 
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wer, 3f 


pkg-vim-maintaine 
Compiled by pkg-vim-maintaine 


没有 太 大 的 区 别 。 


-多 UNIX 衍生 系统 已 经 预 装 了 Vim， 我 们 首先 要 确认 编辑 器 是 否 成 功 
组 合 键 启 动 Terminal， 输 入 vim -version， 如 果 看 到 如 图 1.22 所 示 的 
再 手动 安装 了 。 如 果 没 有 ， 则 运行 以 下 命令 手动 安 

iny 
系统 ， 则 可 查阅 相应 的 版 本 管理 器 文档 ; 如 果 是 Windows 系统 ， 


下 载 链 接 为 ftp://ftp.vim.org/pub/vim/pc/gvim80-586.exe。 


ompiled Nov 24 2016 16:44:48) 


alioth 

alioth 
Features 

«moi 


debian.org 
debian 

includ 

netterm 


j (+ 
+tag_bi 
+tag 
tag_any_white 


GUI 


th 
th m 
*mouse 


*mo 


urxvt 
xterm 


lti byte 


he 
+netbe 
+packag 
and 


vprortte 
python 
+python3 
+quickfix 
+rightleft 
by 
rollbind 
gns 
artindent 
artuptime 
atusline 


+wildignore 
+wildmenu 


p interact 
rm_clipboard 
xterm_save 
+xpm 


UNTIME/menu.vim 
hare/vim 


DHAVE CONFIG H -DFEAT GUI GTK -pthread -I/usr/include/gtk 


进入 编辑 模式 


删除 、 复 制 、 粘 贴 、 查 找 、 蔡 换 等 可 参考 帮助 文档 ， 
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令 模式 下 输入 :help 可 查看 帮助 文档 学 习 基本 操作 。 我 们 按 下 Esc 键 进入 命令 模式 ， 输 入 : 


:python3 import sys;print (sys.version) 


如 图 1.23 所 示 。 


图 1.23 命令 模式 查看 Python 版 本 
按 下 Enter 键 后 得 到 的 结果 如 图 1.24 所 示 。 


图 1.24 查看 Vim 使 用 的 Python 版 本 


这 行 命令 会 输出 编辑 器 当前 的 Python 版 本 。 如 果 报 错 ， 编 辑 器 就 不 支持 Python 语言 ， 需 
要 重 装 或 重新 编译 。Ubuntu 操作 系统 可 以 使 用 “sudo update-alternatives --config vim” 来 切换 
vim 对 Python2 和 Python3 的 支持 。 


(3) Vim 扩展 : Vim 本 身 能 够 满足 开发 人 员 的 很 多 需求 ， 其 可 扩展 性 也 很 强 ， 并 且 已 经 
有 一 些 高 级 扩展 ， 可 以 让 Vim 拥有 “现代 ”集成 开发 环境 的 特性 。 虽 然 Vim 有 多 个 扩展 管理 
器 ， 但 是 笔者 强烈 推荐 Vundle， 可 以 把 它 想象 成 Vim 的 pip. £j f Vundle， 安 装 和 更 新 包 就 
变 得 容易 多 了 。 现 在 我 们 来 安装 Vundle: 
git clone https://github.com/gmarik/Vundle.vim.git ~/.vim/bundle/Vundle.vim 


该 命令 将 下 载 Vundle 插件 管理 器 ， 并 将 其 放置 在 Vim 编辑 器 bundles 文件 夹 中 。 现 在 ， 
可 以 通过 .vimrc 配置 文件 来 管理 所 有 扩展 了 。 将 配置 文件 添加 到 home 文件 夹 中 : 


touch ~/.vimrc 


接 下 来 ， 将 下 面 的 Vundle 配置 代码 添加 到 配置 文件 ~/.vimre 的 顶部 。 


set nocompatible " required 

filetype off " required 

" set the runtime path to include Vundle and initialize 

set rtpt=~/.vim/bundle/Vundle.vim 

call vundle#begin () 

" alternatively, pass a path where Vundle should install plugins 

"call vundle#begin('~/some/path/here') 

" let Vundle manage Vundle, required 

Plugin 'gmarik/Vundle.vim' 

" Add all your plugins here (note older versions of Vundle used Bundle instead of 


Plugin) 

" All of your Plugins must be added before the following line 
call vundle#end() " required 

filetype plugin indent on " required 
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在 vim 配置 文件 中 以 "开头 的 行为 注释 行 。 上 面 的 代码 完成 了 使 用 Vundle 前 的 设置 , 之 后 
就 可 以 在 call vundle#end() 之 前 添加 希望 安装 的 插件 ， 打 开 Vim 编辑 器 ， 运 行 下 面 的 命令 。 
:PluginInstall 

这 个 命令 告诉 Vundle 自动 下 载 所 有 插件 , 表 1-1 列举 了 vim 打造 Python IDE 的 常用 插件 ， 
可 赁 个 人 爱好 选择 安装 某 几 个 或 全 部 。 


表 1-1 各 种 插件 


插件 


| vim-scripts/indentpython.vim 


功能 
自动 缩 进 | 
自动 补 全 | 
语法 检查 /高 亮 
scrooloose/nerdtree 文件 浏览 
超级 搜索 


举 个 例子 : 假如 要 安装 自动 补 全 插件 Valloric/YouCompleteMe, 可 以 在 配置 文件 中 Vundle 
的 内 部 加 入 Plugin 'Valloric/'YouCompleteMe' ， 然 后 重新 启动 vim， 并 在 命令 模式 下 输 
入 :luginInstall (注意 是 英文 冒号 ) 回 车 ， 即 可 自动 安装 Valloric/YouCompleteMe。 同 样 地 ， 如 
果 要 安装 多 个 ， 就 在 配置 文件 中 配置 多 个 ， 然 后 执行 vim 命令 :luginInstall，vim 会 自动 安装 配 
置 文件 中 的 插件 ， 已 安装 的 不 会 再 次 安装 ， 重 新 启动 vim 即 可 体验 插件 的 效果 。 
下 面 附 一 段 比 较 详 细 的 vimre 配置 文件 ， 供 读者 参考 ， 可 修改 为 自己 喜欢 的 风格 。 
"vundle 开始 vundle 代码 请 放置 在 最 前 面 


set nocompatible 

filetype off 

set rtpt=~/.vim/bundle/Vundle.vim 

call vundle#begin () 

"请 将 需要 的 插件 放置 在 此 行 之 后 " 

Plugin 'VundleVim/Vundle.vim' 

"git 插件 

Plugin 'tpope/vim-fugitive' 

10 "filesystem 

11 Plugin 'scrooloose/nerdtree' 

12 Plugin 'jistr/vim-nerdtree-tabs' 

13 Plugin 'kien/ctrlp.vim" 

14 "html 插件 

15 "isnowfy 只 兼容 python2 

16 Plugin 'isnowfy/python-vim-instant-markdown' 
17 Plugin 'jtratner/vim-flavored-markdown' 
18 Plugin 'suan/vim-instant-markdown' 

19 Plugin 'nelstrom/vim-markdown-preview' 
20 "python 语法 检查 插件 

21 Plugin 'nvie/vim-flake8"' 

22 Plugin 'vim-scripts/Pydiction' 

23 Plugin 'vim-scripts/indentpython.vim' 


| Valloric/YouCompleteMe 


scrooloose/syntastic 


DOODPp 


o 


24 
25 
26 
27 
28 
20 
30 
ST 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
Bi. 
52 
53 
54 
55 
56 
5i 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
74 
T2 
73 
74 
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Plugin 'scrooloose/syntastic' 

"python 自动 补 全 插件 

"Plugin 'klen/python-mode' 

""Plugin 'Valloric/YouCompleteMe' 

Plugin 'klen/rope-vim' 

"Plugin 'davidhalter/jedi-vim' 

Plugin 'ervandew/supertab' 

"代码 折合 

Plugin 'tmhedberg/SimpylFold' 

"颜色 插件 

Plugin 'altercation/vim-colors-solarized' 

Plugin 'jnurmine/Zenburn' 

"请 将 需要 的 插件 放置 在 此 行 之 前 " 

call vundlefend() 

"vundle 结束 vundle 代码 请 放置 在 最 前 面 

filetype plugin indent on "开启 文件 类 型 检测 

let g:SimpylFold docstring preview = 1 

"自动 补 全 插件 设置 

let g:ycm autoclose preview window after completion=1 

"颜色 方案 " 

colorscheme zenburn 

set guifont-Monaco:hl4 

let NERDTreeIgnore=['\.pyc$', '\~$'] "ignore files in NERDTree 

"不 要 生产 swap 文件 

set noswapfile 

"设置 行 号 

set nu 

"支持 python 虚拟 环境 

py << EOF 

import os.path 

import sys 

import vim 

if 'VIRTUA ENV' in os.environ: 
project base dir = os.environ['VIRTUAL ENV'] 
sys.path.insert(0, project base dir) 
activate this = os.path.join(project base dir, 'bin/activate this.py') 
execfile(activate this, dict( file -activate this)) 

EOF 

"设置 ctags 文件 

":set tags--/mytags "tags for ctags and taglist 

"omnicomplete 

autocmd FileType python set omnifunc=pythoncomplete#Complete 


"设置 tab 为 4 个 空格 

au BufRead,BufNewFile *py,*pyw,*.c,*.h set tabstop-4 
" 缩 进 的 空格 设置 

au BufRead,BufNewFile *.py,*pyw set shiftwidth=4 

au BufRead, BufNewFile *.py,*.pyw set expandtab 

au BufRead, BufNewFile *.py set softtabstop=4 
"高 亮 显示 BadWhitespace 

highlight BadWhitespace ctermbg=red guibg=red 


21 


Python 自动 化 运 维 快速 入 门 


75 
76 
Ya: 
78 
T9 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
B5 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
TIT 
112 
113 
114 
T15 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
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"不 合法 的 tab 高 亮 显示 

au BufRead,BufNewFile *.py,*.pyw match BadWhitespace /*\t\+/ 

" 

"不 合法 的 空格 高 亮 显示 

au BufRead,BufNewFile *.py,*.pyw,*.c,*.h match BadWhitespace /\s\+$/ 
"使 用 UNIX 行 结束 符 

au BufNewFile *.py,*.pyw,*.c,*.h set fileformat=UNIX 
"设置 默认 文件 编码 为 utf-8 


set encoding-utf-8 


"语法 高 亮 

let python highlight all=1 

syntax on 

"保持 与 上 一 行 一 致 的 缩 进 

autocmd FileType python set autoindent 


" 允许 回 车 键 跨行 

set backspace-indent,eol,start 

"基于 缩 进 折合 

autocmd FileType python set foldmethod=indent 
"use space to open folds 

nnoremap <space> za 


"F5 编译 和 运行 C 程序 ，F6 编译 和 运行 C++ 程序 
"请 注意 ， 下 述 代码 在 Windows 下 使 用 会 报错 
"需要 去 掉 . /这 两 个 字符 
"C 的 编译 和 运行 
map «F5» :call CompileRun()«CR» 
func! CompileRun|() 
exec "w" 
if &filetype -- 'c' 
exec "!gcc % -o $<" 
exec "! ./&«" 
elseif &filetype == 'cpp' 
exec "!gt++ % -o $<" 
exec "! ./%<" 
elseif &filetype == 'java' 
exec "!javac $" 
exec "!java $«" 
elseif &filetype == 'python' 
exec "!python $" 
endif 
endfunc 


map «F6» :call CompileOnly()«CR» 
func! Compileonly() 
exec "w" 
if &filetype == 'c' 
exec "AsyncRun gcc $ -o $«" 
elseif &filetype == 'cpp' 
exec "AsyncRun g++ $ -o $«" 
elseif &filetype == 'python' 
exec "AsyncRun python $" 
endif 


126 endfunc 
127 map «F7» :call RunAsync ()«CR» 
128 func! RunAsync() 


129 exec "wW" 

130 if &filetype == 'c' 

131 exec "AsyncRun gcc % -o $«" 
132 elseif &filetype == 'cpp' 

133 exec "AsyncRun g++ % -o %<" 
134 elseif &filetype == 'python' 
135 exec "!start python $" 

136 endif 


137 endfunc 

138 "窗口 快速 切换 

139 nnoremap <C-J> <C-W><C-J> 
140 nnoremap <C-K> <C-W><C-K> 
141 nnoremap <C-L> <C-W><C-L> 
142 nnoremap «C-H» «C-W»«C-H» 


效果 如 图 1.25 所 示 。 


Nase] sender. 


图 1.25 Vim 配置 效果 图 

开发 工具 总 结 : PyCharm 适合 新 手 使 用 ， 无 须 太 多 配置 就 可 以 实现 贴心 的 自动 补 全 、 智 

能 提示 ， 打 开 即 用 ， 同 时 有 跨 平台 的 IDE。 如 果 有 一 定 的 Vim 基础 (之 前 一 直 是 用 Vim 来 编 
写 代码 ) ， 就 可 以 尝试 将 Vim 打造 为 Python IDE. Vim 的 优势 在 于 其 小 巧 ， 系 统 资 
启动 速度 快 ， 完 全 可 以 量 身 定制 ， 编 写 代码 可 以 脱离 低 效 的 鼠标 间 


少 ， 
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1.5.1 数字 运算 

编程 是 将 问题 数据 化 的 一 个 过 程 ， 数 据 离 不 开 数字 ，Python 的 数字 运算 规则 与 我 们 学 习 
的 四 则 运算 规则 是 一 样 的 ， 即 使 不 使 用 Python 来 编写 复杂 的 程序 ， 也 可 以 将 其 当 作 一 个 强大 
的 计算 器 。 打 开 Python， 试 运行 以 下 命令 : 


>>> 2 + 2 
Pe aN) SRT 
>>> (50 =- 5*6) / 4 


ESOS] # 总 是 返回 一 个 浮 点 数 


um 在 不 同 的 机 器 上 浮 点 运算 的 结果 可 能 会 不 一 样 。 | 


在 整数 除法 中 ， 除 法 OO 总 是 返回 一 个 浮 点 数 ， 如 果 只 想得到 整数 的 结果 ， 就 可 以 使 用 
运算 符 // 。 整 数 除法 返回 浮 点 型 ， 整 数 和 浮 点 数 混合 运算 的 结果 也 是 浮 点 型 。 


SS> 93 + 整数 除法 返回 浮 点 型 
6.333333333333333 
>>> 
>>> 19 // 3 整数 除法 返回 向 下 取 整 后 的 结果 
6 
325 27 3:3 + % 操 作 符 返回 除法 的 余数 
1 
>>> 5 * 3 + 2.0 
17.0 

Python FI OME FA** BRE RUE TT ma Hf o 
>>> 5 ** 2 # 5 的 平方 
25 
5o» pow 7 + 2 的 7 次 方 
128 


在 交互 模式 中 ， 最 后 被 输出 的 表达 式 结果 被 赋值 给 变量 ” ， 这 样 能 使 后 续 计算 更 方便 。 


例如 : 

>>> tax = 12.5 / 100 
>>> price = 100.50 
>>> price * tax 
12.5625 

>>> price + — 
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113.0625 
>>> round( , 2) 
113.06 


Python 数字 类 型 转换 : 

@ int(x) 将 x 转换 为 一 个 整数 。 

€ float(x) 将 x 转换 为 一 个 浮 点 数 。 

© complex(x) 将 x 转换 为 一 个 复数 ， 实 数 部 分 为 x， 虚 数 部 分 为 0。 

€ complex(x, y) 将 x 和 y 转换 为 一 个 复数 , 实数 部 分 为 x, 虚数 部 分 为 yox de y 是 
常用 的 数学 函数 可 参见 表 1-2。 


表 1-2 常用 的 数学 函数 


gm 

abs(x 返回 数字 的 绝对 值 ， 如 abs(-10) ik 

ceil(x 返回 数字 的 上 舍 入 整数 ， 如 math.ceil(4.1) 返 

exp(x i 

fabs(x 

floors 

log(x 

loglO(x 

max(xl, x2. 

min(x1, x2... 

modf(x) 返回 x 的 整数 部 分 与 小 数 部 分 ， 两 部 分 的 数值 符号 与 x 相同 ， 整 数 部 分 

powi 

round(x [.n]) 返回 浮 点 数 x 的 四 舍 五 入 值 ， 如 给 出 n 值 ， 则 代表 舍 入 到 小 数 点 后 的 位 

数 

sant 

152 FRR 


1. 认识 简单 字符 串 
Python 中 的 字符 串 有 几 种 表达 方式 ， 可 以 使 用 单 引号 、 双 引号 或 三 引号 〈 三 个 单 引号 或 
三 个 双 引 号 ) 括 起 来 。 例 如 : 


>>> 'abc' 
"abc' 
>>> "abc" 
'abc! 
SSE APINAN 


ee MERI RAO) RST 
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EDS 
prc 
rape! 

如 果 想 要 字符 串 含 有 单 引 号 、 双 引号 该 怎么 处 理 呢 ? 有 两 种 方法 : 一 是 使 用 反 斜 杠 转 义 引 
号 ; 二 是 使 用 与 字符 串 中 单 引号 、 双 引号 不 同 的 引号 来 定义 字符 串 。 例 如 : 


>>> a='a\'b\'c' # 定 义 字 符 串 a， 使 用 反 斜 杠 转 义 单 引 号 

>>> print (a) # 打 印字 符 串 a 

a'b'c 

>>> b-"a'b'c" # 定 义 字 符 串 b， 使 用 双 引 号 括 起 含有 单 引号 的 字符 串 
>>> print (b) # 打 印字 符 串 b 

a'b'c 


使 用 \n 换行 或 使 用 三 引号 。 例 如 : 


>>> s = 'First line.\nSecond line.' # \n 意味 着 新 行 

>>> print(s) 

First line. 

Second line. 

>>> s='''First line. 

... Second line''' # 字 符 串 可 以 被 """ 《三 个 双 引 号 ) Hk ttt (三 个 单 引号 ) 括 起 来 ， 
使 用 三 引号 时 ， 换 行 符 不 需要 转 义 ， 它 们 会 包含 在 字符 串 中 

>>> print(s) 

First line. 

Second line 


如 果 需 要 避免 转 义 ， 则 可 以 使 用 原始 字符 串 ， 即 在 字符 串 的 前 面 加 上 r。 例 如 : 


>>> s = r"This is a rather long string containing\n\ 
. several lines of text much as you would do in C." 

>>> print(s) 

This is a rather long string containing\n\ 

several lines of text much as you would do in C. 


字符 串 可 以 使 用 + 运算 符 连接 在 一 起 ， 或 者 使 用 * 运算 符 重复 字符 串 。 例 如 : 


>>> word = 'Help' + ' '+ 'ME' 
>>> print (word) 

Help ME 

>>> word="word "*5 

>>> print (word) 

word word word word word 


2. 字符 串 的 索引 

字符 串 可 以 被 索引 ， 就 像 C 语言 中 的 数组 一 样 ， 字 符 串 的 第 一 个 字符 的 索引 为 0， 一 个 字 
符 就 是 长 度 为 一 的 字符 串 。 与 Icon 编程 语言 类 似 ， 子 字符 串 可 以 使 用 分 切 符 来 指定 : 用 冒号 
分 隔 的 两 个 索引 ， 第 一 个 索引 默认 为 0， 第 二 个 索引 默认 为 最 后 一 个 位 置 ，s[:] 表 示 整 个 字符 
串 ，s[2:3] 表 示 从 第 3 个 字符 开始 ， 到 第 4 个 字符 结束 ， 不 含 第 4 个 字符 。 不 同 于 C 字符 串 的 
Æ, Python 字符 串 不 能 被 改变 。 向 一 个 索引 位 置 赋值 会 导致 错误 ， 例 如 : 
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3. 字符 串 的 遍历 
遍历 字符 串 有 三 种 方式 ， 一 是 使 用 enumerate 函数 ， 其 返回 字符 串 的 索引 及 相应 的 字符 ; 
二 是 直接 使 用 for 循环 ， 三 是 通过 字符 索引 来 遍历 。 例 如 ; 
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zi 
4 
5 
6 


中 mo po 


有 一 个 方法 可 以 帮 我 们 记 住 分 切 索 引 的 工作 方式 , 想象 索引 是 指向 字符 之 间 , 第 一 个 字符 
左边 的 数字 是 0， 接 着 有 n 个 字符 的 字符 串 最 后 一 个 字符 的 右边 是 索引 nm。 例如 : 


| 字符 串 | a b c d e | E 
[aaa |o 1 2 3 4 [5 6 
[aa |- -6 5S 4 3 | 2 4 


如 s[1:3] 代 表 bc，s[-2:-1] 代 表 f。 
4. 字符 串 的 格式 化 


Python 支持 格式 化 字符 串 的 输出 。 尽 管 这 样 可 能 会 用 到 非常 复杂 的 表达 式 ， 但 最 基本 的 
用 法 是 将 一 个 值 插入 到 一 个 有 字符 串 格式 符 %s 的 字符 串 中 。 
>>> print ("RI $s 今年 sd Bim è (YÞH', 10)) HEH% 
我 叫 小 明 今年 10 岁 ! 
>>> print ("RU () 今年 () BI" .format (" 小 明 '，10) )# 使 用 字符 串 的 format 方法 
我 叫 小 明 今年 10 岁 ! 
>>> print ("RU {0} 今年 (1) 岁 ! .format (" 小 明 '，10,20) )# 使 用 索引 ， 整 数 20 未 用 到 
我 叫 小 明 今年 10 岁 ! 


需要 在 字符 中 使 用 特殊 字符 时 ，Python 用 反 斜 杠 () 转 义 字符 ， 如 表 1-3 所 示 。 


表 1-3 BUSH 
转 义 字符 
%c 
ws 
vid 
e" 
%o 
%x 格式 化 无 符号 十 六 进 制 数 
%X 格式 化 无 符号 十 六 进 制 数 CAD 
%f 格式 化 浮 点 数字 ， 可 指定 小 数 点 后 的 精度 
%e 科学 计数 法 格式 化 浮 点 数 
%E 作用 同 %e， 用 科学 计数 法 格式 化 浮 点 数 
vig 
%G 


%p 用 十 六 进 制 数 格式 化 变量 的 地 址 
5. 字符 串 的 内 建 函数 
Python 字符 串 的 内 建 函 数 可 参见 表 1-4。 
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表 1-4 字符 串 的 内 建 函 数 


函数 功能 

capitalize() 将 字符 串 的 第 一 个 字符 转换 为 大 写 

center(width, fillchar) 返回 一 个 指定 的 宽度 width 居中 的 字符 串 ，filchar 为 填充 的 
字符 ， 默 认为 空格 

count(str, beg= 0,end=len(string)) 返回 str 在 string 里 面 出 现 的 次 数 ， 如 果 beg sk end 指定 ， 则 
返回 指定 范围 内 str 出 现 的 次 数 

bytes.decode(encoding="utf-8",errors="strict") | Python 3 中 没有 decode 方法 ， 但 我 们 可 以 使 用 bytes 对 象 的 
decode() 方 法 来 解码 给 定 的 bytes 对 象 , 这 个 bytes 对 象 可 以 由 
str.encode() 来 编码 返回 

encode(encoding-"UTF-8' errors='strict’) 以 encoding 指定 的 编码 格式 编码 字符 串 ， 如 果 出 错 就 默认 报 
一 个 ValueError 的 异常 , 除非 errors 指定 的 是 'ignore' 或 "replace' 

endswith(suffix,beg=0,end=len(string)) 检查 字符 串 是 否 以 obj 结束 ， 如 果 beg 或 end 指定 ， 则 检查 指 
定 的 范围 内 是 否 以 obj 结束 ， 是 则 返回 True, AUE JE False 

expandtabs(tabsize=8) 把 字符 串 string 中 的 tab 符号 转换 为 空格 ，tab 符号 默认 的 空 
格 数 是 8 

find(str,beg=0,end=len(string)) 检测 str 是 否 包含 在 字符 串 中 ， 如 果 指 定 范围 beg 和 end, W 
检查 是 否 包含 在 指定 范围 内 ， 包 含 返回 开始 的 索引 值 ， 否 则 
返回 -1 

index(str,beg=0,end=len(string)) 与 find0 方 法 一 样 ， 但 是 如 果 str 不 在 字符 串 中 ， 则 会 报 一 个 

isalnum() 如 果 字 符 串 至 少 有 一 个 字符 并 且 所 有 字符 都 是 字母 或 数字 ， 
则 返回 Trme， 否 则 返回 False 

isalpha() 如 果 字 符 串 至 少 有 一 个 字符 并 且 所 有 字符 都 是 字母 ， 则 返 区 
Tme， 否 则 返回 False 

isdigit() 如 果 字 符 串 只 包含 数字 ， 则 返回 True 否则 返回 False 

islower() 如 果 字 符 串 中 包含 至 少 一 个 区 分 大 小 写 的 字符 ， 并 且 所 有 这 
些 〈 区 分 大 小 写 的 ) 字符 都 是 小 写 ， 则 返回 True， 和 否则 返回 
False 

isnumeric() 如 果 字符 串 中 只 包含 数字 字符 ， 则 返回 Tmue， 和 否则 返回 False 

isspace() 如 果 字 符 串 中 只 包含 空白 ， 则 返回 True, BURE False 

istitle() 如 果 字 符 串 是 标题 化 的 〈 见 tile) 则 返回 True， 和 否则 返回 
False 

isupper() 如 果 字 符 串 中 包含 至 少 一 个 区 分 大 小 写 的 字符 ， 并 且 所 有 这 
些 (区 分 大 小 写 的 ) 字符 都 是 大 写 ， 则 返回 True, AMR 
False 

join(seq) 以 指定 字符 串 作 为 分 隔 符 ， 将 seq 中 所 有 的 元 素 合 并 为 一 个 
新 的 字符 串 

len(string 返回 字符 串 长 度 

ljust(width[,fillchar]) 返回 一 个 原 字 符 串 左 对 齐 ， 并 使 用 fillchar 填充 至 长 度 width 
的 新 字符 串 ，fillchar 默认 为 空格 

lower() 转换 字符 串 中 所 有 大 写字 符 为 小 写 
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( 续 表 ) 

函数 功能 

Istrip) 截 掉 字符 串 左边 的 空格 或 指定 字符 

maketrans() 创建 字符 映射 的 转换 表 ， 对 于 接受 两 个 参数 比较 简单 的 调用 
方式 ， 第 一 个 参数 是 字符 串 ， 表 示 需 要 转换 的 字符 ， 第 二 个 
参数 也 是 字符 串 ， 表 示 转 换 的 目标 

max(str) 返回 字符 串 str 中 最 大 的 字母 

min(str) 返回 字符 串 str 中 最 小 的 字母 

replace(old.new[,max ]) 将 字符 串 中 的 strl BHA str2, WR max 指定 ， 则 替换 不 超 


过 max 次 


rfind(str,beg=0,end=len(string)) 


类 似 于 find0 函 数 ， 不 过 是 从 右边 开始 查找 


rindex(str,beg=0,end=len(string)) 
rjust(width,[.fillchar]) 


1strip() 
split(str-"" num=string.count(str)) 


splitlines([keepends]) 


startswith(str,beg=0,end=len(string)) 
strip([chars 
swapcase() 


title() 


translate(table,deletechars-"") 


类 似 于 index0， 不 过 是 从 右边 开始 

返回 一 个 原 字符 串 右 对 齐 ， 并 使 用 fllchar (BRU AEH) 填充 
至 长 度 width 的 新 字符 串 

删除 字符 串 末尾 的 空格 

num=string.count(str)) 以 str 为 分 隔 符 截取 字符 串 ， 如 果 num 
有 指定 值 ， 则 仅 截 取 num 个 子 字符 串 。 

按照 行 Or AnD 分 隔 ， 返 回 一 个 包含 各 行 作为 元 素 的 列 
表 ， 如 果 参 数 keepends 为 False， 则 不 包含 换行 符 ， 如 果 为 
True， 则 保留 换行 符 

检查 字符 串 是 否 以 obj 开头， 是 则 返回 True, 否则 返回 False. 
如 果 beg 和 end 指定 值 ， 则 在 指定 范围 内 检查 

在 字符 串 上 执行 lstrip0 和 rstripO 

将 字符 串 中 大 写 转换 为 小 写 ， 小 写 转换 为 大 写 

返回 "标题 化 "的 字符 串 , 也 就 是 说 所 有 单词 都 是 以 大 写 开始 ， 
其 余 字 母 均 为 小 写 〈 见 istitle0) 

根据 ste 给 出 的 表 (包含 256 个 字符 ) 转换 string 的 字符 ， 要 
过 滤 的 字符 放 到 deletechars 参数 中 


upper() 转换 字符 串 中 的 小 写字 母 为 大 写 

zfill(width 返回 长 度 为 width 的 字符 串 ， 原 字符 串 右 对 齐 ， 前 面 填充 0 

isdecimal() 检查 字符 串 是 否 只 包含 十 进 制 字符 ， 如 果 是 ， 则 返回 true, A 
则 返回 false 

int(x) 将 x 转换 为 一 个 整数 


15.3 ”列表 与 元 组 


列表 是 Python 常用 的 数据 类 型 ， 也 是 最 基本 的 数据 结构 。Python 的 列表 是 由 方 括 号 “[]” 
[] 括 起 ， 使 用 “,” 分 隔 的 序列 ， 序 列 中 的 数据 类 型 不 要 求 一 致 ， 序 列 的 索引 从 0 开始 。 


【示例 1-1】 创 建 一 个 列表 ， 只 要 把 逗号 分 隔 的 不 同 数据 项 使 用 方 括号 括 起 来 即 可 。 


>>> listl = ['Google', 'Huawei', 1997, 2000]; 


eros (age 
>>> list3 


[1, 2, 3, 4, 5 ]; 
["a", "b", "c", "q"]; 
7 L ' ; 
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>>> list4=["all of them",1ist1,1ist2,1ist3] 

S>> print ("Listi poy: "> SEE 

listl[0]: Google 

>>> print ("Iyst2pb-:5]: ", X3istE2pii5]p) 

stop: SI: 32:53, 4, 15] 

>>> print(list4) 

["all of them", ['Google", "Huawei", 1997, 2000], El: 2, 3, 4, 51, ['a*, 'b', 'c*', 
'd']] 

>>> print (list4[1][1]) 

Huawei 


【示例 1-2】 更 新 一 个 列表 ， 可 以 对 列表 的 数据 项 进行 修改 ， 也 可 以 使 用 append() 方 法 添 
加 列表 项 。 


>>> list = ['Google', 'Huawei', 1997, 2000] 
>>> print ("第 三 个 元 来 为 5 ", list[2]) 

第 三 个 元 素 为 : 1997 

>>> list[2] = 2001 

>>> print ("更 新 后 的 第 三 个 元 素 为 : "，1ist[2]) 
更 新 后 的 第 三 个 元 素 为 : 2001 

>>> list.append('xiaomi') 

>>> print (" 追 加 后 的 最 后 一 个 元 素 为 : ", list[-1]) 
追加 后 的 最 后 一 个 元 素 为 : xiaomi 

>>> list.insert (2, 'qq') 

>>> print ("在 第 三 个 位 置 上 插入 的 元 素 为 : ", list[2]) 
在 第 三 个 位 置 上 插入 的 元 素 为 : qq 


【示例 1-3】 删 除 列表 中 的 某 个 元 素 。 


>>> list = ['Google', 'Huawei', 1997, 2000] 
>>> del list[0] 

>>> print (list) 

['Huawei', 1997, 2000] 


列表 还 有 一 些 其 他 操作 ， 如 列表 对 + 和 * 的 操作 符 与 字符 串 相似 ,+ 号 用 于 组 合 列表 ， 
* 号 用 于 重复 列表 。 


>>> len([1, 2, 31) # 获 取 列 表 元 素 个 数 len () 
3 

Sos pl, 2. 315 BA, 5.06] #+ 号 用 于 组 合 列表 
I1, 2, 3, 4, 5, 6] 

>>> ['Hi!'] * 10 + * 号 用 于 重复 列表 
['uit*, Et: Ei DE 'Hil', "Hi!', 'Hil', "Hi!'] 
>s dn Tl 2 3 PAT TCR EB (Ev 
True 

>>> for x in [l, 2, 3]: prink(x, end=" v) IS RICH 
nouus se max, 2,31) # 返 回 列表 最 大 值 

3 

>>> min([1,2,3]) # 返 回 列表 最 小 值 

i 


31 


Python 自动 化 运 维 快速 入 门 


列表 的 常用 方法 可 参见 表 1-5. 


表 1-5 列表 的 常用 方法 


名 称 功能 

list.append(obj) 在 列表 末尾 添加 新 的 对 象 

list.count(obj) 统计 某 个 元 素 在 列表 中 出 现 的 次 数 

list.extend(seq) 在 列表 末尾 一 次 性 追加 另 一 个 序列 中 的 多 个 值 〈 用 新 列表 扩展 原来 的 列表 ) 
listindex(obj) 从 列表 中 找 出 某 个 值 第 一 个 匹配 项 的 索引 位 置 

list.insert(index, obj) 将 对 象 插入 列表 

list.pop(obj-list[-1]) 移 除 列表 中 的 一 个 元 素 〔 默 认 最 后 一 个 元 素 ) ， 并 且 返 回 该 元 素 的 值 
list.remove(obj) 移 除 列表 中 某 个 值 的 第 一 个 匹配 项 

list.reverse() 反 向 列表 中 元 素 

list.sort([func]) 对 原 列表 进行 排序 

list.clear() 清空 列表 

list.co; 复制 列表 


元 组 与 列表 类 似 ， 用 “0” 括 起 ，“,” 分 隔 的 序列 ， 不 同 于 列表 的 是 ， 元 组 是 只 读 的 ， 无 
法 被 修改 ， 在 定义 时 其 元 素 必 须 确 定 下 来 ， 也 可 以 像 列表 一 样 使 用 索引 来 访问 。 
【示例 1-4】 元 组 的 应 用 。 


>>> t = ('Google', 'Huawei', 1997, 2000) ”# 定 义 一 个 元 组 


>>> t[0] # 使 用 和 列表 一 样 的 方式 访问 相应 元 素 
'Google' 

»»» t[-1] 

2000 

>>> t[0]="Baidu' # 修 改元 组 的 值 将 会 抛 出 异常 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 


>>> t=() # 定 义 一 个 空 的 元 组 


>>> type (七 ) 

<class 'tuple'> 

>>> t=(1,) # 定 义 一 个 只 有 一 个 元 素 的 元 组 ，“,“ 是 元 组 的 特征 
>>> (1) =1 # 注意 (1) 等 于 1， 不 是 元 组 


True 


注意 ， 元 组 元 素 不 变 是 指 元 组 每 个 元 素 指 向 永远 不 变 ， 如 果 元 组 的 某 个 元 素 是 一 个 列表 ， 
那么 这 个 列表 的 元 素 是 可 以 被 改变 的 ， 但 元 组 指向 这 个 列表 永远 不 变 。 


【示例 1-5】 元 组 的 某 个 元 素 是 列表 。 


>>> a-['a','b'] HEX- DIK a 
TEL # 定 义 一 个 列表 b 

»»» t-('e','f',a) dE L— 4 76/H t, PHPBB a 
E 
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('e', '£', ['a', 'b']) 


>>> (EIU DTE ERR # 这 一 步 相当 于 修改 a[0]=x 

>>> t[2][1]-'y' # 这 一 步 相 当 于 修改 a[1]=y 

>> a # 验 证 a 

| 

>>> t 

We, er Wes, ose) 

>>> t[2]-b #t[21 指 向 的 是 列表 a， 这 个 指向 无 法 被 修改 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 
如 果 和 希望 元 组 中 的 每 个 元 素 无 法 被 修改 , 就 必须 保证 元 组 的 每 一 个 元 素 本 身 也 不 能 变 , 如 
数字 、 字 符 串 、 元 组 等 不 可 变数 据 类 型 。 


1.5.4 字典 


一 提 到 字典 ， 我 们 就 会 想到 中 华 字典 、 英 语词 典 等 ， 通 过 给 定 的 单词 (key) 查找 其 含义 
(value) 。 在 字典 里 ， 要 查找 的 单词 (key) 是 唯一 的 ， 但 不 同 的 单词 其 含义 (value) 可 能 相 
IF]. Python 里 的 字典 就 是 键 值 对 〈key-value) 组 成 的 集合 ， 且 可 存储 任意 类 型 对 象 。 定 义 一 个 
字典 非常 简单 : 使 用 一 对 花 括号 仓 括 起 ， 键 值 对 之 间 使 用 “,” 分 隔 。 例 如 ， 
>>> dict = ( 'hello':' 你 好 ', 'world' : ' 世 界 ',} # 定 义 一 个 字典 dict 
>>> dict 
('hello': "MHF", 'world': ' 世 界 '} 
>>> dict['hello'] 


:你 好 ' 

>>> len(dict) ## 计 算 字 典 元 素 个 数 ， 即 键 的 总 数 
2 

>>>str (dict) # 输 出 字典 ， 以 可 打印 的 字符 串 表 示 


"('hello': "你 好 'world': "EJ j" 
字典 值 可 以 是 任何 的 Python 对 象 ， 既 可 以 是 标准 对 象 ， 也 可 以 是 用 户 自 定义 的 对 象 ， 但 
键 不 行 。 两 个 重要 的 点 需要 记 住 : 
(1) 不 允许 同一 个 键 出 现 两 次 。 创建 时 如 果 同 一 个 键 被 赋值 两 次 , 后 一 个 值 就 会 被 记 住 。 
【示例 1-6】 不 允许 同一 个 键 出 现 两 次 。 
>>> dict = ( 'hello' :' 你 好 ', 'world' :' 世 界 ', 'hello':'world') # 键 hello 的 值 被 更 新 为 
world 
>>> dict 
('hello': 'world', 'world': ' 世 界 '} 
(2) 因为 键 必须 不 可 变 ， 所 以 可 以 用 数字 、 字 符 串 或 元 组 充当 ， 用 列表 则 不 行 ， 即 键 必 
须 为 不 可 变数 据 类 型 。 
【示例 1-7】 键 必须 为 不 可 变数 据 类 型 。 
pod = | CU f atgs*apeU # 键 是 列表 ， 会 报错 
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Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unhashable type: 'list' 


【示例 1-8] Ak. 


>>> d = ( "atl, 'b':2, 'c':3, 'd':4, 'e*:5, 'f':6 } pgX—A4 
»»» for key,value in d.items(): $d.items () 方 法 返回 一 个 键 值 对 的 元 组 (key, value) 
print (key, value) 


al 

b2 

es 

Q 4 

Gom 

£6 

>>> for key in d: 3 UA BEL 
: print (key, d[key]) #python 强制 缩 进 ， 与 上 一 行 比 有 4 个 空格 
arl 

2 

e3 

d4 

e 

f6 

>>> 


【示例 1-9】 修 改 字典 。 


人 人 
>>> d['b']='b' 

>>> d 

juste ui, Uu. Vou. els ee vi. US Se viele op 


【示例 1-10】 删 除 字典 元 素 。 可 以 删除 单一 的 元 素 ， 也 可 以 一 次 性 删除 所 有 元 素 ， 清 空 
字典 ， 显 式 地 删除 一 个 字典 用 del 命令 。 


>>> del d['b']  #WIRH b 

>>> d # 删 除 键 b 后 

Trans p, wets 3) tds 4, Sete ib, Meus: Gy 
>>> d.clear() Hir 


exe 

{} 

>>> del d # 删 除 字 典 

>>> d # 删 除 字 典 后 ， 字 典 a 已 不 存在 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
NameError: name 'd' is not defined 


Python 字典 的 内 置 方法 可 参见 表 1-6. 
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表 1-6 字典 的 常用 方法 


名 称 功能 
radiansdict.clear() 删除 字典 内 所 有 元 素 
radiansdict.copy() 返回 一 个 字典 的 浅 复制 
radiansdict.fromkeys() 创建 一 个 新 字典 ， 以 序列 seq 中 元 素 做 字典 的 键 ，val 为 字典 
所 有 键 对 应 的 初始 值 
radiansdict.get(key, default-None 返回 指定 键 的 值 ， 如 果 值 不 在 字典 中 ， 则 返回 default 值 
key in dict 如 果 键 在 字典 dict 中， 则 返回 tue， 否 则 返回 false 
radiansdict.items() 以 列表 返回 可 遍历 的 元 组 数组 
TadiansdictkeysO 以 列表 返回 一 个 字典 所 有 的 键 
radiansdict.setdefault(key, default=None) 与 get0 类 似 , 但 如 果 键 不 存在 于 字典 中 ， 则 会 添加 键 并 将 值 设 
置 为 default 
radiansdict.update(dict2 把 字典 dict2 的 键 / 值 对 更 新 到 dict 中 
radiansdict.values 以 列表 返回 字典 中 的 所 有 值 
pop(key[,default]) 删除 字典 给 定 键 key 所 对 应 的 值 ， 返 回 值 为 被 删除 的 值 。key 
值 必须 给 出 。 否则 ， 返 回 default (fi 
popitem() 随机 返回 并 删除 字典 中 的 一 对 键 和 值 〈 一 般 删除 末尾 对 ) 
155 RE 
Lf set 是 一 个 无 序 不 重复 元 素 集 ， 基 本 功能 包括 关系 测试 和 消除 重复 元 素 。 集 合 对 象 还 


支持 union OKA) ~ intersection (Az) 、difference ( 差 ) 和 sysmmetric difference (对称 差 集 ) 

在 Python 中 可 以 使 用 “x in set” 来 判断 x 是 否 在 集合 中 ， 使 用 “len(seb ”来 获取 集合 元 
素 个 数 ， 使 用 “for x in set” 来 遍历 集合 中 的 元 素 。 但 由 于 集合 不 记录 元 素 位 置 ， 因 此 集合 不 
支持 获取 元 素 位 置 和 切片 等 操作 。 


【示例 1-11】 集 合 的 定义 和 常见 用 法 。 


>>> x-set('abcd') HURRA x 由 单个 字符 组 成 
>>> y=sət(['a", "bc", "da", 10]) HUES y 由 列表 的 元 素 组 成 
>>> x,y # 打 Eh x,y 

Ee ee Ust. Wy. UID) 

>>> x y # 取 交集 

{'a', Cd') 

>>> xly THOSE 

{'c', "be', 'd', 10, 'b', 'a"} 

>>> x-y tE, don x 里 有 ，y 里 没有 的 

(Cb, 1c") 

>>> x^y # 对 称 差 集 (项 在 x 或 Y 中 ， 但 不 会 同时 出 现在 二 者 中 ) 


{Uber lew, Woe br 
【示例 1-12】 使 用 集 去 重 元 素 。 


Be eB Be | 
set (a) 


>>> a 
>>> b 
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>>> b 
set ([33, 11, 44, 221) 


集合 的 基本 操作 可 参见 表 1-7. 


集合 


#17 集合 的 基本 操作 


操作 


s.add(x") 


添加 一 项 


s.update([10,37.42]) 


p 


s 中 添加 多 项 


s.remove('H') 


使 


用 remove0 可 以 删除 一 项 


len(s) 


set 


的 长 度 


Xins 


测试 x 是 否 是 s 的 成 员 


x not ins 


测试 x 是 否 不 是 s 的 成 员 


s.issubset(t) 


[scopy | 
除 set“s” 中 的 所 有 元 素 


试 是 否 s 中 的 每 一 个 元 素 都 在 tj 
^ s»-t 测试 是 否 t 中 的 每 一 个 元 素 都 在 s 中 
sit 返回 一 个 新 的 set 包含 s 和 t 中 的 每 一 个 元 素 
> s&t 返回 一 个 新 的 set 包含 s 和 t 中 的 公共 元 素 
“st 返回 一 个 新 的 set 包含 s 中 有 是 t 中 没有 的 元 素 
4T. s^t 返回 一 个 新 的 set 包含 s 和 t 中 不 重复 的 元 素 


除 且 返回 set“s” 中 的 一 个 不 确定 的 元 素 ， 如 果 为 空 , 则 引发 KeyError 


Fe = union(). intersection(). difference) f” symmetric difference()&] 432 4 4f (non-operator 就 是 
| 形 如 sunion0 这 样 的 ) 版 本 将 会 接受 任何 可 迭代 对 和 象 〔iterable) 作为 参数 。 相 反 ， 它 们 的 


[ 运算 符 版 本 (& 人 -|) 要 求 参数 必须 是 集合 对 象 。 
1.5.6 ”函数 


在 中 学 数学 中 我 们 知道 y=f(x) 代 表 着 函数 , x 是 自 变 量 , y 是 函数 f(x) 的 值 。 在 程序 中 ， 自 
变量 x 可 以 代表 任意 的 数据 类 型 ， 可 以 是 字符 串 、 列 表 、 字 典 、 对 象 ， 可 以 是 我 们 认为 的 任何 


东西 。 


【示例 1-13】 以 简单 的 数据 计算 函数 为 例 , 定义 函数 fun(a,b.h) 来 计算 上 底 为 a, 下 底 为 b， 


高 为 h 的 梯形 面积 。 
>>> def fun(a,b,h): 


def 定义 函数 fun， 参 数 为 a，b，h 
s=(a+b) *h/2 # 使 用 梯形 的 面积 计算 公式 ， 注 意 此 行 前 有 4 个 空格 
return s # 返 回 面积 


HIE EROS 3, FRX 4, 5 5 的 梯形 面积 


27-5 
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函数 的 目的 是 封装 , 提高 应 用 的 模块 性 及 代码 的 重复 利用 率 。 将 常用 的 处 理 过 程 写成 函数 ， 
在 需要 时 调用 它 ， 可 以 屏蔽 实现 细节 ， 减 少 代码 量 ， 增 加 程序 可 读 性 。 


【示例 1-14】 假 如 多 个 梯形 的 面积 需要 计算 ， 那 么 : 


本 3 下 5 4-EUE 
面积 


Hisp print ("上 底 {}, 下 底 {}, 高 {} 的 梯形 ， 面 积 为 {}" .format (a,b, h, fun(a,b,h)) ) # 字 符 串 
格式 化 函数 format 


上 底 3, 下 底 4, 高 5 的 梯形 ， 面 积 为 17.5 
上 底 7, 下 底 5, 高 9 的 梯形 ， 面 积 为 54.0 
上 底 12, 下 底 45, 高 20 的 梯形 ， 面 积 为 570.0 
上 底 12, 下 底 14, 高 8 的 梯形 ， 面 积 为 104.0 
上 底 12, 下 底 5, 高 8 的 梯形 ， 面 积 为 68 .0 


上 例 中 的 调用 方法 fun(3,4.5) 并 不 直观 ， 为 了 增加 可 读 性 ， 这 里 我 们 稍 做 调整 。 


>>> def trapezoidal area (upperLength, bottom, height): 
return (upperLength+bottom) *height/2 


>>> trapezoidal area (upperLength=3,bottom=4,height=5) 
Mu 

>>> trapezoidal area (bottom-4,height-5,upperLength-3) 
T9 

>>> 


在 调用 此 函数 传递 参数 时 使 用 参数 关键 字 , 这 样 参数 的 位 置 可 以 任意 放置 而 不 影响 运算 结 
果 ， 增 加 程序 可 读 性 。 假 如 待 计算 的 梯形 默认 高 度 均 为 5， 就 可 以 定义 带 默认 值 参 数 的 函数 。 


>>> def trapezoidal area (upperLength,bottom,height=5) :# 定 义 默认 值 参 数 
return (upperLength+bottom) *height/2 


>>> trapezoidal area (upperLength=3, bottom=4) 


17.5 

>>> trapezoidal area (3,4) 

PTS) 

»»» trapezoidal area(3,4,5) 

ass 

>>> trapezoidal area (3,4,10) 

35.0 

dA HAIRS HL AEE RMS S E. | 


关于 函数 是 否 会 改变 传 入 变量 的 值 有 以 下 两 种 情况 。 

(1) 对 不 可 变数 据 类 型 的 参数 , 函数 无 法 改变 其 值 , 如 Python 标准 数据 类 型 中 的 字符 串 、 
数字 、 元 组 。 

(2) 对 可 变数 据 类 型 的 参数 ， 函 数 可 以 改变 其 值 ， 如 Python 标准 数据 类 型 中 的 列表 、 字 
典 、 集 合 。 
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【示例 1-15】 举 例 说 明 。 


>>> def change nothing (var): 


var="changed" 


>>> def change mabe (var): 


var.append ("new value") 


>>> paraml-"hello" 


>>> change nothing (paraml) 


>>> paraml 

'hello' 

>>> param2=["value"] 
>>> change mabe (param2) 
>>> param2 

['value', 'new value'] 


HEASBATEB, param] 的 值 不 会 改变 


# 传 入 参数 为 列表 ，param2 的 值 可 以 被 函数 改变 


1.5.7 ”条件 控制 与 循环 语句 


1. 条 件 控制 


Python 的 条 件 控制 是 通过 一 条 或 多 条 语句 的 执行 结果 (True 或 False) 来 决定 执行 的 代码 
块 。 条 件 控制 的 流程 如 图 1.26 所 示 。 


让 语 名 的 一 般 形式 如 下 : 


if 条 件 1: 
语句 1 
elif 条 件 2: 
语句 2 

else: 


语句 3 
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条 件 为 假 
执行 相应 代码 


图 1.26 条 件 控制 的 流程 
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解释 : 如 果 条 件 1 为 真 ， 则 执行 语句 1; 如 果 条 件 1 不 为 真 ， 条 件 2 为 真 ， 则 执行 语句 2; 
如 果 条 件 1、 条 件 2 都 不 为 真 ， 则 执行 语句 3。 其 中 elif 和 else 语句 不 是 必需 的 。 


【示例 1-16】 将 下 列 代 码 保 存 为 Ix_ifpy。 


1 def score (num) : # 定 义 一 个 函数 ， 判 断 得 分 属于 哪个 分 类 
2 if num>=90: 

3 print (num, 'excellent') 
4 elif num>=80: 

5 print (num, 'fine') 

6 elif num>=60: 

7J print (num, 'pass') 

8 else: 

9 print (num, 'bad') 

10 score(99) 4H TJ 

11 score(80) 

12 score(70) 

13 score(60) 

14 score(59) 


在 命令 窗口 执行 python lx i£py 后 得 到 如 下 结果 。 


99 excellent 
80 fine 
70 pass 
60 pass 
59 bad 


if 语句 还 可 以 用 来 实现 问题 表达 式 。 例 如 : 有 整数 变量 a、b、c ， 如 果 a<b， 那 么 c=a， 
否则 c=b。 我 们 可 以 用 一 行 代码 实现 : 


Sab 


35» c =a Gf a < b else b # 如 果 a<b， 则 c=a， 否 则 c=b 
>>> print (c) 
3 


>>> a,b = 5,4 
>>> c =a if a « b else b 
»»» print(c) 

4 


2. 循环 语句 

Python 有 两 种 方式 来 实现 循环 : while 语句 和 for 语句 。 

while 语句 的 结构 如 下 : 
while 条 件 判断 : 

执行 语句 1 
else: 

执行 语句 2 

当 条 件 判 断 为 真 时 执行 语句 1， 当 条 件 判断 为 假 时 执行 语句 2， 其 实 只 要 不 是 死 循环 ， 语 
句 2 就 一 定 会 被 执行 。 因 此 ，while 语句 的 结构 也 可 以 如 下 : 
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while 条 件 判断 : 
执行 语句 1 
执行 语句 2 
while 语句 的 流程 如 图 1.27 所 示 。 


条 件 判 断 


进行 下 一 次 循环 条 件 为 真 
条 件 为 


执行 语句 2 


图 1.27 while 语句 的 流程 
【示例 1-17】 将 下 面 的 代码 保存 为 lx_while.py。 


1 flag-True 

2 while flag: 

3 input str=input ("please input something,'q' for quit.-» ") 
4 print("your input is $s" $ input str) 

5 if input str--'q': 

6 flag-False 

7 print("You're out of circulation.") 


在 命令 窗口 中 执行 python Ix whilepy ， 并 尝试 输入 一 些 字符 ， 结 果 如 下 。 


please input something,'q' for quit.-> hello 
your input is hello 

please input something,'q' for quit.-» python 
your input is python 

please input something,'q' for quit.-> q 
your input is q 

You're out of circulation. 


Python for 循环 可 以 遍历 任何 序列 的 项 目 , 如 一 个 列表 或 一 个 字符 串 。for 循环 的 一 般 格 式 
如 下 : 


for <variable> in <sequence>: 
<statements> 
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else: 
«statements» 
【示例 1-18) i+ 5 1-1000 的 所 有 整数 的 和 。 
>>> sum=0 # 定 义 求 和 的 结果 sum， 初 始 为 0 
>>> for i in range(1000): rang (1000) 产 生 一 个 1~1000 的 整数 列表 
sum+=i # 相 当 于 sum=sum+i 进行 累加 
se print (sum) # 打 印 结果 
499500 


循环 中 的 break 语句 和 continue 语句 : 从 英文 字面 意思 来 理解 即 可 ，break 就 是 中 断 ， 跳 
出 当前 的 循环 ， 不 再 继续 执行 循环 内 的 所 有 语句 ;continue 就 是 继续 ， 程 序 运行 至 continue 处 
时 ， 不 再 执行 continue 后 的 循环 语句 ,立即 进行 下 一 次 循环 判断 。 下 面 通过 一 个 例子 来 了 解 两 
者 的 区 别 。 


【示例 1-19] break 语句 和 continue 语句 的 比较 (Ix break continue.py) 。 


1 print("break-------------- ny 
2 count=0 

3 while count«5: 

4 print ("aaa", count) 
5 count+=1 

6 if count==2: 

T break 

8 print ("bbb", count) 


10 print("continue-------------- ny 
11 count-0 

12 while count«5: 

13 print ("aaa",count) 

14 count+=1 

15 if count==2: 

16 continue 

17 print ("bbb", count) 


在 命令 行 中 运行 python Ix_break_continue.py 将 得 到 如 下 结果 。 


aaa 1 
cont. nue 
aaa 0 


if 
1 
aaa 2 
3 
3 
4 
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aaa 4 
bbb 5 


我 们 看 到 break 直接 跳出 了 循环 , 而 continue 只 是 跳 过 了 其 中 一 步 ( 输 出 bbb 2 的 那 一 步 )。 


15.8 ”可 迭代 对 象 、 迁 代 器 和 生成 器 


WAGE Python 最 强大 的 功能 之 一 ， 是 访问 集合 元 素 的 一 种 方式 。 迭 代 器 是 一 个 可 以 记 住 


裔 历 位 置 的 对 象 。 迭代 器 对 象 从 集合 的 第 一 个 元 素 开 始 访问 , 直到 所 有 的 元 素 被 访问 结束 。 和 迭 
代 器 只 能 往 前 不 会 后 退 。 和 迭代 器 有 两 个 基本 的 方法 : iter) 和 next0。 字 符 串 、 列 表 或 元 组 对 
象 都 可 用 于 创建 迭代 器 。 


首先 来 了 解 一 下 可 办 代 对 象 、 连 代 器 和 生成 器 的 概念 。 
COD 可 和 迭代 对 象 : 如 果 一 个 对 象 拥有 _ iter “方法 ， 这 个 对 象 就 是 一 个 可 迭代 对 象 。 在 


Python 中 ， 我 们 经 常 使 用 for 来 对 某 个 对 象 进行 遍历 ， 此 时 被 遍历 的 对 象 就 是 可 和 迭代 对 象 ， 常 
见 的 有 列表 、 元 组 、 字 典 。for 循环 开始 时 自动 调用 可 和 迭代 对 象 的 _iter “方法 获取 一 个 迭代 器 ， 
for 循环 时 自动 调用 和 迭代 器 的 next 方法 获取 下 一 个 元 素 , 当 调用 可 和 迭代 器 对 象 的 next 方法 引发 
Stoplteration 异常 时 ， 结 束 for 循环 。 


(2) 迭代 器 ; 如 果 一 个 对 象 拥有 _ iter_ 方 法 和 _next 方法 , 这 个 对 象 就 是 一 个 迭代 器 。 
(3) 生成 器 : 生成 器 是 一 类 特殊 的 迭代 器 ， 就 是 在 需要 时 才 产 生 结 果 ， 而 不 是 立即 产生 


结果 。 这 样 可 以 同时 节省 CPU 和 内 存 。 有 两 种 方法 可 以 实现 生成 器 : 
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€ 生成 器 函数 。 使 用 def 定义 函数 ， 使 用 yield 而 不 是 retum 语句 返回 结果 。yield 语句 
一 次 返回 一 个 结果 , 在 每 个 结果 中 间 挂 起 函数 的 状态 , 以 便 下 次 从 它 离 开 的 地 方 继续 
执行 。 

© 生成 器 表达 式 。 类 似 于 列表 推导 ， 只 不 过 是 把 一 对 大 括号 [] 变 换 为 一 对 小 括号 ()。 但 
是 生成 器 表达 式 是 按 需 产生 一 个 生成 器 结果 对 象 , 要 想 拿 到 每 一 个 元 素 , 就 需要 循环 
遍历 。 

三 者 之 间 的 关系 如 图 1.28 所 示 。 


可 迭代 对 象 序列 〈 字 符 串 、 列 表 、 元 组 ) 


图 1.28 可 友 代 对 象 、 迭 代 器 和 生成 器 的 关系 
可 办 代 对 象 包含 迭代 器 、 序 列 、 字 典 ， 生 成 器 是 一 种 特殊 的 迭代 器 ， 下 面 分 别 举例 说 明 。 
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【示例 1-20】 创 建 一 个 迭代 器 对 象 (lx_iteratorpy) 。 


1 class MyListIterator (object) : d 定义 迭代 器 类 ， 其 是 MyList 可 和 迭代 对 象 的 迭代 器 类 
2 

3 def init (self, data): 

4 self.data = data + 上 边界 

5 self.now = 0 + 当前 和 从 代 值 ， 初 始 为 0 

6 

7 def iter (self): 

8 return self # BENZ REAREA: ANA OMe, MRE self 
9 

10 def next (self): E EREDAR 771 

11 while self.now « self.data: 

12 self.now += 1 

13 return self.now - 1 音 返 回 当前 迭代 值 

14 raise StopIteration # 超出 上 边界 ， 抛 出 异常 


因为 类 MyListlterator 实现 了 _ iter 方法 和 ”next 方法 ， 所 以 它 是 一 个 迭代 器 对 象 。 由 


于 _iter 方法 本 返 的 是 进 代 器 〈 本 身 ) ， 因 此 它 也 是 可 迭代 对 象 。 夫 代 器 必然 是 一 个 可 和 代 
对 象 。 


oco -o0U^5UQIMmNmPc 


o 


下 面 使 用 三 种 方法 遍历 迭代 器 MyListlterator. 


my list = MyListIterator (5) + 得 到 一 个 迭代 器 
print ("使 用 for 循环 来 遍历 迭代 器 ") 
for i in my list: 
print (i) 
my list = MyListIterator (5) # PAB — TAI R 
print ("使 用 next 来 遍历 迭代 器 ") 
print (next (my list)) 
print (next (my list)) 
print (next (my list)) 


10 print(next(my list) ) 

11 print (next (my list) ) 

12 my list = MyListIterator (5) # 重新 得 到 一 个 可 迭代 对 象 
13 print ("同时 使 用 next 和 for 来 遍历 迭代 器 ") 

14 print (" 先 使 用 两 次 next") 

15 print(next(my list)) 

16 print(next(my list)) 

17 print ("再 使 用 for, 会 从 第 三 个 元 素 2 开始 输出 ") 

18 for i in my list: 

19 print (i) 


使 


0 
al 
2 
3 
4 
使 


输出 结果 如 下 : 
用 for 循环 来 遍历 迭代 器 


用 next 来 遍历 迭代 器 
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Python 自动 化 运 维 快速 入 门 


心 wN PP OO 


同时 使 用 next 和 for 来 遍历 迭代 器 
先 使 用 两 次 next 
0 


1 
再 使 用 for, 会 从 第 三 个 元 素 2 开始 输出 
2 


3 
4 


从 结果 可 以 看 出 ，for A Se br bw re A ACA next 方法 ， 当 捕捉 到 
MyListlterator 异常 时 自动 结束 for 循环 。 


【示例 1-21] EATER R. 


1 class MyList (object): + 定义 可 迭代 对 象 类 

2 def init (self, num): 

3 self.data = num + 上 边界 

4 def iter (selfi: 

5 return MyListIterator (self.data) # RENAT TEAR AT S 3 C 2S SA 


因为 对 象 MyList KHL f iter. API TARAS, MEE ATERI S 
遍历 操作 可 使 用 for 循环 ,不 可 使 用 next(). for 循环 实质 上 还 是 调用 MyListIterator [f] next | 


方法 。 

1 my list = MyList (5) + 得 到 一 个 可 迭代 对 象 
2 print ("使 用 for 循环 来 遍历 可 和 迭代 对 象 my list") 

3 for i in my list: 

4 print (i) 

5 my list = MyList (5) + 得 到 一 个 可 和 迭代 对 象 
6 print (" 使 用 next KNARI% my list") 

7 print (next (my list)) 

8 print (next (my list)) 


9 print (next (my list) ) 
10 print (next (my list) ) 
11 print (next (my list)) 


输出 结果 如 下 : 
使 用 for 循环 来 遍历 可 迭代 对 象 my list 


0 

J 

2 

3 

4 

使 用 next KARIR my list 
print (next (my list)) 
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TypeError: 'MyList' object is not an iterator 
从 运行 结果 知道 ， 可 迭代 对 象 如 果 没有 _next 方法 ， 则 无 法 通过 next() 进 行 遍历 。 
【示例 1-22】 创 建 一 个 生成 器 ， 像 定义 一 般 函 数 一 样 ， 只 不 过 使 用 yield 返回 中 间 结 果 。 


生成 器 是 一 种 特殊 的 从 代 器 ， 自 动 实现 了 迭代 器 协议 ， 即 _iter 方法 和 next 方法， 不 需要 青 
手动 实现 两 个 方法 。 创 建生 成 器 : 


1 def myList (num) : + 定义 生成 器 

2 now = 0 + 当前 和 迭代 值 ， 初 始 为 0 

3 while now « num: 

i val = (yield now) # BSAA, 


now = now + 1 if val is None else val # val None, AHN, AWA 
Tse BOR OS val 


遍历 生成 器 : 
1 my list = myList (5) + 得 到 一 个 生成 器 对 象 
2 print ("for 循环 遍历 生成 器 myList") 
3 for i in my list: 
4 print (i) 
5 
6 my list = myList (5) # 得 到 一 个 生成 器 对 象 
7 print ("next 遍历 生成 器 myList") 
8 print (next (my list)) # 返回 当前 迭代 值 
9 print (next (my list)) + 返回 当前 迭代 值 
10 print (next (my list) ) 3 返回 当前 迭代 值 
11 print (next (my list) ) + 返回 当前 迭代 值 
12 print(next(my list)) + 返回 当前 迭代 值 
运行 结果 如 下 : 
for 循环 遍历 生成 器 myList 
0 
dl 
2 
3 
4 
next 遍历 生成 器 myList 
0 
a 
2 
3 
4 


具有 yield 关键 字 的 函数 都 是 生成 器 ，yield 可 以 理解 为 retum， 返 回 后 面 的 值 给 调用 者 。 
不 同 的 是 return 返回 后 ， 函 数 会 释放 ， 而 生成 器 则 不 会 。 在 直接 调用 next 方法 或 用 for 语句 进 
行 下 一 次 迭代 时 ， 生 成 器 会 从 yield 下 一 句 开 始 执行 ， 直 至 遇 到 下 一 个 yield. 


1.5.9 ”对象 赋值 、 浅 复制 、 深 复制 


Python 中 对 象 的 赋值 ， 复 制 〈 深 / 浅 复 制 ) 之 间 是 有 差异 的 ， 如 果 使 用 时 不 注意 ， 就 可 能 
导致 程序 衣 溃 或 严重 bug。 下 面 就 通过 简单 的 例子 来 介绍 这 些 概念 之 间 的 差别 。 
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【示例 1-23】 对 象 赋值 操作 〈testFuzhipy) 。 


# encoding-utf-8 


1 
2 
3 objectl = ["Will", 28, ["Python", "C£", "JavaScript"]] 
4 # 对 象 赋值 

5 object2 = objectl 

6 print(f"id of objectl {id(object1) }") 

7 print(object1) 

8 print([id(ele) for ele in objectl]) 


11 print(f"id of object2 {id(object2) }") 
12 print (object2) 
13 print([id(ele) for ele in object2]) 


16 4 尝试 改 为 obpjectl ,然后 看 object? 的 变化 


18 objectl[0] = "Wilber" 

19 object1[2].append("Css") 

20 print ("更 改 objectl 之 后 ") 

21 print(f"id of objectl {id(objectl) }") 
22 print (object1) 

23 print([id(ele) for ele in object1]) 


26 print(f"id of object2 {id(object2) }") 
27 print (object2) 
28 print([id(ele) for ele in object2]) 


输出 结果 如 图 1.29 所 示 。 


图 1.29 ”对象 赋值 操作 


下 面 来 分 析 代码 : 首先 第 3 行 创建 了 一 个 名 为 object] 的 变量 ， 这 个 变量 指向 一 个 list 对 
KR, 585 行将 object] 赋 给 object2， 然 后 打印 它们 及 它们 指向 的 对 象 在 内 存 中 的 地 址 (通过 id 
函数 ) 。 第 18 和 19 行 修改 object1， 然 后 分 别 打 印 objectl 与 object2 在 内 存 中 的 地 址 。 从 运 
行 结果 来 看 ， 无 论 是 objectl 还 是 object2， 它 们 都 向 同一 个 内 存 地 址 ， 即 指向 的 都 是 同一 个 对 
象 ， 也 就 是 说 “objectl is object2 and objectl[i] is object2[i] ”， 对 object] 的 操作 同样 会 反应 到 
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object2 上， 打印 objectl 和 object2 Hii Re 


【示例 1-24】 浅 复制 操作 (testCopypy) 。 


# encoding-utf-8 
import copy 


objectl = ["Will", 28, ["Python", "C£", 
# 对 象 复制 
object2 = copy.copy(object1) 


print (f"id of objectl {id(object1) }") 
print (object1) 
print([id(ele) for ele in object1]) 


print(f"id of object2 (id(object2))") 
print (object2) 
print([id(ele) for ele in object2]) 


E: (US objectl ,然后 看 object2 的 变化 
object1[0] = "Wilber" 

object1 [2] . append ("CSS") 

print ("更 改 object1 之 后 ") 

print(f"id of objectl (id(object1)]") 
print (object1) 

print([id(ele) for ele in objectl]) 


print(f"id of object2 {id(object2) }") 
print (object2) 
print([id(ele) for ele in object2]) 


运行 结果 如 图 1.30 所 示 。 


` gig El 
台 终 是 显 


示 一 致 的 。 


"JavaScript"]] 


图 1.30 


浅 复制 操作 

代码 说 明 : 与 testFuzhi.py 不 同 的 是 , 第 2 行 导入 copy 模块 , 第 5 行 调 
函数 来 为 object2 进行 赋值 ， 也 就 是 浅 复制 操作 。 从 运行 结果 来 看 ， 
存 中 的 不 同位 置 , 它们 属于 两 个 不 


copy 模块 的 copy 
object] 与 object2 指向 内 


同 的 对 象 , 但 列表 内 部 仍 指向 同一 个 位 置 。 修改 了 objectl[0] 


= "Wilber" 后 ，objectl 对 象 的 第 一 个 元 素 指向 了 新 的 字符 串 常量 "Wilber"， 而 object2 仍 指向 
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"Will". HF object1[2].append("CSS")E} object1[2] 的 地 址 并 未 改变 ，objectl 与 object2 的 第 三 
个 元 素 仍 指向 此 子 列表 。 

总 结 一 下 浅 复制 :通过 copy 模块 中 的 浅 复制 函数 copy0 对 object] 指向 的 对 象 进行 浅 复制 ， 
然后 浅 复制 生成 的 新 对 象 赋值 给 object2 变量 。 浅 复制 会 创建 一 个 新 的 对 象 ， 这 个 例子 中 " 
objectl is not object2", 但 是 对 于 对 象 中 的 元 素 , 浅 复 制 就 只 会 使 用 原始 元 素 的 引用 (内 存 地 址 )， 
也 就 是 说 ，"wilber[i] is win[il"。 当 对 object] 进行 修改 时 由 于 list 的 第 一 个 元 素 是 不 可 变 类 型 ， 
因此 object] 对 应 的 list 的 第 一 个 元 素 会 使 用 一 个 新 的 对 象 , 但 是 list 的 第 三 个 元 素 是 一 个 可 变 
类 型 ， 修 改 操作 不 会 产生 新 的 对 象 ，objectl 的 修改 结果 会 就 相应 地 反应 到 object2 上 。 


【示例 1-25】 深 复制 操作 (testDeepCopy.py)。 


1 # encoding=utf-8 

2 import copy 

3 objectl = ["Will", 28, ["Python", "C£", "JavaScript"]] 
4 # 对 象 复制 

5 object2 = copy.deepcopy (object1) 

6 print(f"id of objectl {id (objectl) }") 

7 print (object1) 

8 print([id(ele) for ele in object1]) 


10 print(f"id of object2 (id(object2)]") 
11 print (object2) 
12 print([id(ele) for ele in object2]) 


14 £4 尝试 改 为 object1l ,然后 看 object2 的 变化 
15 objectl[0] = "Wilber" 

16 objectl1[2].append("css") 

17 Print(" 更 改 objectl 之 后 ") 

18 print(f"id of objectl {id(object1) }") 
19 print (object1) 

20 print([id(ele) for ele in object1]) 


23 print(f"id of object2 {id(object2) }") 
24 print(object2) 
25 print([id(ele) for ele in object2]) 


运行 结果 如 图 1.31 所 示 。 


图 1.31 深 复制 操作 
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从 运行 结果 来 看 ， 这 个 非常 容易 理解 ， 就 是 创建 了 一 个 与 之 前 对 象 完全 独立 的 对 象 。 通 过 
copy 模块 中 的 深 复制 函数 deepcopy() 对 object] 指向 的 对 象 进 行 深 复制 ， 然 后 深 复制 生成 的 新 
对 象 赋值 给 object2 Bar. 与 浅 复制 类 似 , 深 复制 也 会 创建 一 个 新 的 对 象 ， 这 个 例子 中 "objectl 
is not object2", 但 是 对 于 对 象 中 的 元 素 , 深 复制 都 会 重新 生成 一 份 (有 特殊 情况 , 下 面 会 说 明 )， 
而 不 是 简单 地 使 用 原始 元 素 的 引用 (内 存 地址) 。 也 就 是 说 ，" objectl[i] is not object2[i]". 

复制 有 一 些 特殊 情况 : 


对 于 原子 数据 类 型 (如 数字 、 字 符 串 、 只 含 不 可 变数 据 类 型 的 元 组 ) 没有 复制 一 说 ， 
赋值 操作 相当 于 产生 一 个 新 的 对 象 ， 对 原 对 象 的 修改 不 影响 新 对 和 象 。 简 言 之 , 赋值 操 
作 与 浅 复制 和 深 复制 的 效果 是 一 样 的 

如 果 元 组 变量 只 包含 原子 类 型 对 象 ， 深 复制 就 不 会 重新 生成 对 象 ， 这 其 实 是 Python 
解释 器 内 部 的 一 种 优化 机 制 ， 对 于 只 包含 原子 类 型 对 象 的 元 组 ， 如 果 它 们 的 值 相等 ， 
就 在 内 存 中 保留 一 份 ， 类 似 的 还 有 小 整数 从 -5~256。 在 内 存 中 只 保留 一 份 ， 可 节省 内 
存 ， 提 高 访问 速度 ， 如 图 1.32 所 示 


图 1.32 元 组 的 深 复制 


多 个 例子 实战 Python 编程 


本 节 通 过 几 个 实用 的 例子 来 复习 Python 语法 。 


1.6.1 


实战 1: 九 九 乘法 表 


本 例 技术 点 : 打印 小 学 乘法 口诀 表 (练习 for 循环 、 字 符 串 格式 化 ) 。 
我 们 看 到 的 九 九 乘法 口诀 表 一 般 如 图 1.33 所 示 。 
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SP 3x4=12 | 4x4=16 
| 
| 
| 


2x5-10 |3x5-15 | 4x5-20 | 5x5-25 
| 1x6=6 [2x6=12 3x6-18 4x6=24 | 5x6=30 6x6=36 


1x7=7 | :rn 3x7=21 4x7-28 |5x7=35 6x7=42 | 7x7=49 


1x8-8 | 2x8=16 3x8=24 | 4x8-32 | 5x8-40 | 6x8-48 | 7x8=56 | 8x8=64 


x9-9 | 2x9-18 3x9-27  4x9-36| 5x9=45 | 6x9=54 7x9=63 | 8x9=72 | 9x9=81 


图 1.33 九 九 乘法 口诀 表 
第 一 步 : 定义 乘 数 x， 即 每 一 行 中 不 变 的 那个 数 ; 定义 被 乘 数 Y， 即 每 一 行 的 乘 以 乘 数 x， 
依次 递增 1， 但 不 超过 x 的 数 。 
第 二 步 : print 被 乘 数 、 乘 数 、 积 的 相关 信息 ， 当 乘 数 增 加 1 时 ， 输 出 一 个 换行 。 
第 三 步 : 格式 化 输出 最 大 长 度 为 6 的 字符 串 ， 右 补 空格 ， 以 显示 整齐 。 


代码 如 下 (example 99.py) : 


Coding: ut DO A 
for x in range(1,10) : #x 是 乘 数 
for y in range (1,x+1) : ty 是 被 乘 数 


(x*y)".1just (6) ,end-' ') # 使 用 新 特性 格式 化 字符 串 ， 也 可 以 使 
format,% 等 格式 化 ， 其 中 ljust (6) AMF, 长 度 为 6， 右 补 空格 
ced # 打 印 一 个 换行 


os^otwroc 


保存 为 99.py， 在 命令 窗口 输入 python example 99.py， 运 行 结果 如 图 1.34 所 示 。 


图 1.34 运行 结果 


162 实战 2: 发 放 奖 金 的 梯度 


企业 发 放 的 奖金 根据 利润 提成 ， 利 润 (0 低 于 或 等 于 10 万 元 时 ， 奖 金 可 提 1090; 利润 高 于 
10 万 元 低 于 20 万 元 时 ， 低 于 10 万 元 的 部 分 按 10% 提 成 ， 高 于 10 万 元 的 部 分 可 提成 7.5%; 
20 万 元 到 40 万 元 之 间 时 ， 高 于 20 万 元 的 部 分 可 提成 5%; 40 万 元 到 60 万 元 之 间 时 ， 高 于 40 
万 元 的 部 分 可 提成 3%; 60 万 元 到 100 万 元 之 间 时 , 高 于 60 万 元 的 部 分 可 提成 1.590; 高 于 100 
万 元 时 ， 超 过 100 万 元 的 部 分 按 1% 提 成 。 计 算 给 定 的 利润 I， 应 发 奖金 总 数 。 
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本 例 技术 点 : 利用 数组 〈 列 表 ) 来 分 界 和 定位 。 


代码 如 下 (reward demo.py) : 


1 4 -+ coding: UTE-8)—*— 
2 
3 arr = [1000000, 600000, 400000, 200000, 100000, 0] #e QAI} 
4 rat = [0.01, 0.015, 0.03, 0.05, 0.075, 0.1] #€ MEM MIMI, SARA — 5I 
5 
6 
7 while True: 
8 i = input (' 净 利润 (q 退出 ) : ') 获取 用 户 输入 
9 if i == 'q': 
10 exit (0) 退出 程序 
11 if not i.isdigit(): 如 果 不 是 数字 ， 则 重新 开始 循环 ， 重 新 输入 数据 
12 continue 
13 reward = [] 定义 奖金 列表 ， 存 放 每 一 区 间 计 算 的 奖金 
14 print ("奖金 为 : ", end=' ') 不 换行 
il I-int (i) 
16 for idx in range(0, 6): 
17 if P > arr[idx]: 
18 reward.append ((I - arr[idx]) * rat[idx])# 将 每 一 区 间 的 奖金 存放 在 奖金 列表 中 
19 I = arr[idx] 
20 reward. reverse () 逆序 奖金 列表 ， 目 的 为 方便 输出 
21 if (len (reward)) == 如 果 只 有 一 个 ， 直 接 输出 
22 print (reward[0]) 
23 else: 
24 print ("+ ".join([str(num) for num in reward]),"-",sum(reward)) 
# 输 出 每 个 区 间 的 奖金 ， 并 求 和 
执行 python reward_demo.py 依次 输入 利润 数据 ， 结 果 如 图 1.35 所 示 。 
通过 本 例 ， 我 们 可 以 练习 Python 的 输入 输出 、 列 表 的 运用 、continue 的 作用 、 列 表 推 导 
式 等 。 


1.6.3 实战 3: 递归 获取 目录 下 文件 的 修改 时 间 
列 出 某 一 文件 目录 下 的 所 有 文件 〈 包 括 其 子 目录 文件 ) ， 打 印 修改 时 间 ， 距 当前 时 间 有 几 


天 几时 几 分 。 


本 例 技术 点 : 使 用 标准 库 os 模块 的 os.walk 方法 ， 使 用 datetime 模拟 计算 时 间 差 。 
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代码 如 下 : 


1 # encoding-utf-8 

2 

3 import os 

4 import datetime 

5 

6 # 循环 e:\job 目录 和 子 目录 ， 上 表示 原始 字符 串 ， 不 含 转 义 字符 

7 print (f" 当 前 时 间 : (datetime.datetime.now().strftime('2Y-$m-$d %H:%M:%S") }") 
8 for root, dirs, files in os.walk(r"e:\job"): 

9 for file in files: 

10 获取 文件 的 绝对 路 径 

11 absPathFile = os.path.join(root, file) 

12 获取 修改 时 间 并 转化 为 datetime 类 型 

13 modifiedTime = 

datetime.datetime.fromtimestamp (os.path.getmtime (absPathFile) ) 

14 now = datetime.datetime.now() # 获取 当前 时 间 

15 diffTime = now - modifiedTime # 获取 时 间 差 

16 打印 相关 信息 ，1just (25) 表示 该 字符 串 ， 若 不 足 25 字 节 ， 则 右 补 空格 

I7 diffTime.days 指 间隔 的 天 数 ,diffTime .seconds 表示 间隔 除了 天 数 外 还 剩余 的 秒 数 ， 
将 其 转化 为 时 和 分 

18 diffTime.seconds//3600: ”对 3600 秒 取 整 表示 小 时 数 

19 (diffTime.seconds$3600)//60: 先 对 3600 秒 取 余 ， 再 对 60 秒 取 整 ， 表 示 分 钟 数 
20 print (f"{absPathFile}".1just (25)，f" 修 改 时 间 
[{modifiedTime.strftime ('%Y-%m-%d %H:%M:%S')}] \ 

21 HES [ {diffTime.days} K{diffTime.seconds//3600}it 

{ (diffTime.seconds%3600) //60}4t]") 

22 print ( 

23 f"{absPathFile:<27s} 修 改 时间 


[{modifiedTime.strftime ('%Y-%m-%d $H:3M:%S')}] 距 今 [{diffTime.days:3d} 天 
{diffTime.seconds//3600:2d} 时 { (diffTime.seconds%3600)//60:2d} 分 ]" 
24 ) 

将 上 述 代 码 保 存 为 example fileModifiedTime.py ， 在 命令 窗口 执行 python 
example fileModifiedTime.py， 运 行 结果 如 图 1.36 所 示 。 


图 1.36 运行 结 


本 例 稍 做 修改 可 以 用 于 运 维 自动 删除 N 天 前 的 文件 ， 读 者 可 自行 实践 。 
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1.6.4 实战 4: 两 行 代码 查找 替换 3 或 5 的 倍数 

列 出 1-20 的 数字 ， 若 是 3 的 倍数 就 用 apple 代替 ， 若 是 5 的 倍数 就 用 orange (RH, ALE 
是 3 的 倍数 又 是 5 的 倍数 ， 就 用 appleorange 代 蔡 。 注 意 ， 只 能 使 用 两 行 代码 。 

本 例 技术 点 : 若是 一 般 的 思路 ， 则 肯定 是 一 个 for 循环 ， 再 加 上 if else SHE. APIA 
的 是 练习 使 用 字符 串 的 切片 操作 ， 代 码 及 运行 结果 如 图 1.37 所 示 。 


图 1.37 两 行 代码 实现 
其 实 算法 很 简单 ， 就 是 1 对 3 和 5 取 余 ， 如 果 为 0， 则 从 下 标 0*5=0 开始 切片 ， 就 取 到 了 
apple; 如 果 余 数 不 为 0, 则 最 小 是 从 下 标 1*5=5 开始 切片 ， 就 取 到 字符 串 为 空 。 即 “apple”[5:] 
的 结果 为 空 。 最 后 使 用 了 or 关键 字 ，print(A or B) 的 含义 : 如 果 A 为 True， 则 结果 为 True; 
当 A 是 False 再 判断 B， 如 果 B 是 True， 则 结果 是 True. 


16.5 ”实战 5: 一 行 代 码 的 实现 
本 例 要 求 使 用 一 行 代码 就 实现 实例 4 的 运行 结果 。 
本 例 技术 点 : 学 习 使 用 列表 推导 式 及 字符 串 与 列表 的 join 操作 。 
代码 及 运行 结果 如 图 1.38 所 示 。 


图 138 一 行 代码 实现 
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pip 工具 的 使 用 


在 实际 编写 Python 程序 时 会 经 常 
网 站 上 下 载 相 应 的 压缩 包 并 解压 , DUET A 
命令 就 会 提示 缺少 相应 的 依赖 包 , 然后 


IH 


到 


命令 


后 下 载 依赖 包 , 在 安装 依赖 包 时 ， 可 能 还 会 


到 第 三 方 库 包 ， 如 果 不 依赖 工具 ， 我 们 就 需要 去 pypi 
python setup.py install 进行 安装 。 如 果 不 顺 利 的 话 ， 
需要 再 安装 依 
序 来 完成 呢 ? 想 得 没 错 ， 


= FEL 


* 重 复 的 过 程 为 什么 不 交 


赖 包 的 依赖 包 。 读 者 可 能 会 想 : 这 种 繁杂 给 
pip 工具 就 是 为 解决 包 的 问题 而 生 的 。 
pip 是 Python 最 优秀 的 包 管理 工具 之 一 ， 作 为 easy. install 工具 的 升级 版 ， 将 来 完全 可 以 
取代 easy_install. 
下 面 从 pip 的 安装 和 使 用 来 做 一 个 简单 的 介绍 。 
1. 安装 
:命令 行 中 输 


目前 Python 版 本 Python2.7.9 以 上 或 Lodi 以 上 版 本 都 自 带 pip 工具 ， 
入 pip -version， 如 果 有 相关 的 版 本 信息 ， 则 说 明 pip 工具 已 经 安装 ， 可 以 直接 使 用 。 


如 则 需要 手动 安装 。 安 装 过 程 也 相当 简单 ， 执 行 下 面 两 步 即 可 : 


文 个 命令 


Hi EI 命令 ， 


显示 没有 这 
(1) 下 载 get-pip.py https://bootstrap.pypa.io/get-pip.py。 


(2) 执行 Python get-pip.py， 即 为 当前 版 本 的 Python 环境 安装 pip。 
2. 使 用 


在 命令 窗口 


输入 “pip -help” 可 以 查看 pip 的 帮助 文档 ， 如 图 1.39 所 示 。 


o 


iii c\wNoow 


图 1.39 pip 帮助 指南 
从 上 到 下 依次 为 安装 、 下 载 、 印 载 、 生 成 requirements 文件 、 


列 出 已 安装 的 
子 、 计 划 包 hash 值 、 


oy A> 


pip 支持 命令 
安装 包 的 信息 、 
帮助 


RA, MA. Æ$, M requirements 文件 生成 轮 


aa 


显示 安 


Ade. 


常用 的 命令 为 前 三 个 : install. download. uninstall. 


如 何 使 用 pip 安装 所 需要 的 包 呢 ?请 在 命令 行 输入 “pip install -help”。 如 果 使 用 download 
命令 ， 请 在 命令 行 输入 “pip download -help” 进 行 查 看 ， 如 图 1.40 所 示 。 


Nemá. 


图 1.40 pip 帮助 


如 果 有 不 认识 的 单词 , 请 及 时 查阅 字典 , 查看 帮助 文档 是 我 们 学 习 工 具 最 快 的 方法 。 下 面 
对 常用 的 一 些 命令 进行 简单 介绍 。 

(1) 在 线 安装 : pip install packgename， 例 如 pip install watchdog 会 自动 下 载 watchdog 及 
其 依赖 的 包 并 自动 完成 安装 。 

(2) 离线 安装 : pip install --find-links filepath --no-index packgename， 这 段 话 告 诉 pip 仅 
从 filepath 查找 相应 的 包 信息 并 安装 。 需 要 我 们 提前 在 filepath 路 径 准 备 好 待 安装 的 包 及 其 依 
赖 的 包 。filepath 也 可 以 是 一 个 url. 

(3) HRE: pip uninstall packgename。 

(4) 查看 已 安装 的 包 : pip list. 

(5) 将 已 安装 的 包 生 成 requirements 文件 : pip freeze > re.txt o requirements 文件 有 什么 
用 呢 ? 用 处 非常 大 。 如 果 你 在 机 器 A 上 部 署 了 一 个 应 用 ， 现 在 你 需要 在 机 器 B 上 部 署 同样 的 
应 用 , 再 一 个 包 一 个 包 的 安装 就 太 低 效 了 。 一般 的 方法 是 这 样 的 : 在 A 上 生成 re.txt ,将 re.txt 
传 到 B 上 ， 在 B 上 执行 pip install -rre.txt 即 可 自动 安装 re.txt 中 指定 的 包 。 

(6) 下 载 包 : pip download packagename， 该 命令 下 载 包 至 当前 路 径 。 如 果 下 载 到 指定 路 
径 path， 可 以 这 样 执行 : pip download --dest path packagename。 如 果 当 前 版 本 是 Python3.6， 想 
下 载 Python2.7 相应 的 软件 包 , 则 执行 pip download --dest path --Python-version 27 packagename。 

CI) 下 载 requirements 文件 中 的 包 : pip download -rrequirements txt。 

(8) 查看 哪些 包 可 以 更 新 : pip list outdated. 


以 上 命令 基本 可 以 满足 我 们 的 日 常 需求 , 如 果 有 特殊 情况 ， 比 如 只 下 载 二 进 制 包 安 装 , 或 
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者 只 下 载 源 代码 包 安装 ， 则 需要 加 --only-binary 或 --no-binary 等 参数 ， 可 参考 pip 帮助 文档 。 

下 载 速度 优化 :如 果 安 装 一 些 较 大 的 包 ， 我们 会 发 现下 载 的 速度 比较 慢 ， 是 因为 pip 默认 
的 安装 源 都 在 国外 ， 所 以 把 pip 安装 源 蔡 换 成 国内 镜像 ， 不 仅 可 以 大 幅 提升 下 载 速度 ， 还 可 以 
提高 安装 成 功率 。 目 前 国内 源 有 以 下 几 个 : 


€ 清华 : https://pypi.tuna.tsinghua.edu.cn/simple. 


阿里 云 : http://mirrors.aliyun.com/pypi/simple/。 

中 国 科技 大 学 : https://pypi.mirrors.ustc.edu.cn/simple/. 
华中 理工 大 学 : http//pypi.hustunique.com/. 

山东 理工 大 学 : http//pypi.sdutLinux.org/ 。 

£8: http://pypi.douban.com/simple/。 


临时 使 用 国内 的 源 可 以 在 使 用 pp 时 加 参数 -i， 如 pip install -i 
https://pypi.tuna.tsinghua.edu.cn/simple pyspider, 这 样 就 会 从 清华 这 边 的 镜像 去 安装 pyspider 库 。 

如 果 想 永久 修改 默认 的 源 ， 一 劳 永 逸 ， 就 可 以 将 pip 的 配置 文件 修改 为 以 下 内 容 (其 他 的 
源 类 比 ) : 
[global] 
index-url = https://pypi.tuna.tsinghua.edu.cn/simple 

Linux 下 ， 修 改 ~/pip/pip.conf (没有 就 创建 一 个 文件 及 文件 夹 ， 文 件 夹 要 加 “.”， 表 示 
隐藏 文件 夹 ) 。 

Windows 下 ,直接 在 user 目录 中 创建 一 个 pip 目录 ,如 C:\Users\xx\pip， 新 建文 件 pip.ini， 
内 容 同 上 。 
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第 2 章 
Faiz fe 


本 章 主要 从 文本 处 理 、 系 统 监 控 、 日 志 、FTP、 邮 件 监控 、 微 信 监 控 等 方面 来 介绍 基础 运 
维 的 相关 知识 。 


文本 处 理 


在 日 常 的 运 维 工作 中 一 般 都 离 不 开 与 文本 ， 如 日 志 分 析 、 编 码 转换 、ETL 加 工 等 。 本 节 
从 编码 原理 、 文 件 操作 、 读 写 配 置 文件 、 解 析 XML 等 实用 编程 知识 出 发 ， 希 望 能 抛砖引玉 ， 
为 读者 在 处 理 文本 问题 时 提供 可 实践 的 方法 。 


2.1.1 Python 编码 解码 


我 们 编写 程序 处 理 文本 的 时 候 , 不 可 避免 地 遇 到 各 种 各 样 的 编码 问题 , 如 果 对 编码 解码 过 
程 一 知 半 解 ， 遇 到 这 类 问题 就 会 很 棘手 。 本 小 节 从 编码 解码 的 原理 出 发 ， 结 合 Python 3 代码 
实例 一 步 步 揭 开 文 本 编码 的 面纱 , 编码 解码 的 原理 是 相通 的 ， 学 会 编码 解码 ， 对 学 习 其 他 编程 
语言 也 非常 有 帮助 。 
首先 我 们 需要 明白 ， 计 算 机 只 处 理 二 进 制 数据 ,如果 要 处 理 文本 ， 就 需要 将 文本 转换 为 二 
进 制 数据 ， 再 由 计算 机 进行 处 理 。 
将 文本 转换 为 二 进 制 数据 就 是 编码 , 将 二 进 制 数据 转换 为 文本 就 是 解码 。 编码 和 解码 要 按 
照 一 定 的 规则 进行 ， 这 个 规则 就 是 字符 集 。 

以 常见 的 ASCI 编码 为 例 ， 字 符 'a' 在 ASCI 码 表 中 对 应 的 数据 是 97， 二 进 制 是 1100001 。 
下 面 在 Python 中 验证 一 下 : 
>>> ord('a') # 查 看 'a' 的 ASCII 编码 
97 
>>> bin(ord('a')) ， 间 转换 为 二 进 制 
'0b1100001' 
>>> chr(97) # 将 十 进 制 数字 转 为 ascii 字符 


rat 


由 于 ASCII 编码 只 占用 一 个 字 节 ， 也 就 是 二 进 制 S 位 ， 共 有 2° 256 种 可 能 ， 完 全 可 以 履 
盖 英 文大 小 写字 母 及 特殊 符号 。 而 我 们 中 文 汉 字 远 超过 256 个 ， 使 用 ASCI 编码 的 一 个 字 节 
来 处 理 中 文 显然 是 不 够 用 的 ， 于 是 我 国 就 制订 了 支持 中 文 的 GB2312 编码 ， 使 用 两 个 字 节 ， 可 
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以 支持 25 共 65536 种 汉字 ， 可 以 覆盖 常用 的 中 文 汉字 60370 个 (当代 《汉语 大 字典 》(2010 
年 版 ) 收 字 60370 ^) 。 
例如 : 汉字 的 “ 汉 ”。 
>>> "iX".encode('gb2312') # 将 " 汉 “ 以 GB2312 编码 得 到 16 进 制 字 节 码 b'\xba\xba' 转换 为 
10 进 制 为 186,186, 占用 两 个 字 节 
b'\xba\xba' 
>>> (b'\xba\xba') .decode ('gb2312') # 将 字 节 解码 得 到 汉 
"nt 
>>> list ("M". encode ('gb2312") ) 
[186, 186] 
在 这 里 介绍 几 种 常见 的 中 文 编 码 。 


€ GB2312 或 GB2312-80 是 中 国 国家 标准 简体 中 文字 符 集 ， 共 收录 6763 个 汉字 ， 同 时 
收录 了 包括 拉丁 字母 、 希 腊 字 母 、 日 文平 假名 及 片 假名 字母 、 俄 语 西里 尔 字母 在 内 的 
682 个 字符 。 

€ GBK 即 汉字 内 码 扩展 规范 ， 共 收入 21886 个 汉字 和 图 形 符号 。 

€ GB 8030 4 GB2312-1980 和 GBK 兼容 , 共 收录 汉字 70244 个 ， 是 一 二 四 字 节 变 长 编码 。 


由 上 可 以 看 出 支持 的 汉字 范围 : GB18030 > GBK > GB2312. 
对 于 一 些 生 个 字 ， 可 能 需要 GBK sk GB18030 进行 编码 ， 如 “ 神 ”。 
>>> " 祥 ".encode ("gb2312") #GB 2312 没有 神 字 的 编码 ， 报 错 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
UnicodeEncodeError: 'gb2312' codec can't encode character 'Nu794e' in position 0: 
illegal multibyte sequence 
>>> "fb".encode ("gbk") 
b'Nxb5t' 
>>> list("fh".encode ("gbk")) 
[181, 116] 
>>> "fli" .encode ("gb18030") 
b'\xb5t' 
>>> list ("#i" .encode ("gb18030") ) 
Mert 201 


这 仅仅 是 适用 中 文 文本 的 一 个 编码 , 全 世界 有 上 百 种 语言 , 每 种 语言 都 设计 自己 独特 的 编 
码 ， 这 样 计算 机 在 跨 语言 进行 信息 传输 时 还 是 无 法 沟通 出现 乱 码 ) 的 ， 于 是 Unicode 编码 
应 运 而 生 ，Unicode 使 用 2~4 个 字 节 编码 ， 已 经 收录 136690 个 字符 ， 并 且 还 在 一 直 不 断 扩 张 
中 。 把 所 有 语言 统一 到 一 套 编码 中 ， 这 套 编码 就 是 Unicode 编码 。 使 用 Unicode 编码 ， 无 论处 
理 什 么 文本 都 不 会 出 现 乱码 问题 。Unicode 编码 使 用 两 个 字 节 (16 位 bit) 表示 一 个 字符 ， 比 
较 偏 个 的 字符 需要 使 用 4 个 字 节 。 

Unicode 起 到 以 下 作用 。 

@ 直接 支持 全 球 所 有 语言 ， 每 个 国家 都 可 以 不 用 再 使 用 自己 之 前 的 旧 编 码 了 ， 用 

Unicode 就 可 以 。 
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Unicode 包含 了 与 全 球 所 有 国家 编码 的 映射 关系 。 


几乎 所 有 的 系统 、 编 程 语 言 都 默认 支持 Unicode。 但 是 新 的 问题 又 来 了 ， 如 果 一 段 纯 英 文 


文本 ， 


Unicode 编码 存储 就 会 比 用 ASCH 编码 多 占用 一 倍 空间 ! 存储 和 网 络 传输 时 一 般 数据 


都 会 非常 多 。 为 了 解决 上 述 问题 ，UTE 编码 应 运 而 生 ，UTFE 编码 将 一 个 Unicode 字符 编码 成 


1-6 ^ 


字 节 ， 常 用 的 英文 字母 被 编码 成 1 个 字 节 ， 汉 字 通 常 是 3 个 字 节 ， 只 有 很 生僻 的 字符 才 


会 被 编码 成 4~6 个 字 节 。 注 意 ， 从 Unicode 到 UTF 并 不 是 直接 对 应 的 ， 而 是 通过 一 些 算法 和 
规则 来 转换 的 。UTF 编码 有 以 下 三 种 。 


UTF-8: ”使 用 1、2、3、4 个 字 节 表示 所 有 字符 ， 优 先 使 用 1 个 字 节 ， 若 无 法 满足 ， 
则 增加 一 个 字 节 ， 最 多 4 个 字 节 。 英 文 占 1 个 字 节 、 欧 洲 语系 占 2 个 字 节 、 东 亚 占 3 
个 字 节 ， 其 他 及 特殊 字符 占 4 个 字 节 。 

UTF-16: ”使 用 2、4 个 字 节 表 示 所 有 字符 ， 优 先 使 用 2 个 字 节 ， 否 则 使 用 4 个 字 节 
UTF-32: ”使 用 4 个 字 节 表示 所 有 字符 。 


例如 : 汉字 的 “ 汉 ”， 在 UTF-8 字符 集中 3 个 字 节 。 


>>> list("iX".encode ("utf-8")) 


230, 


问题 。 


97] 


97] 


97] 


LN) AST 


而 英文 无 论 采 集 哪 种 编码 ， 都 是 一 致 的 。 如 果 使 用 纯 英 文 编写 代码 ， 就 基本 不 会 遇 到 编码 


如 "a" 在 ASCII、GBK、UTF-8 中 的 编码 结果 都 是 一 致 的 。 


>>> list ("a".encode ("ascii") ) 
>>> list ("a".encode ("gbk") ) 


>>> list ("a".encode ("utf-8")) 


下 面 结合 Python 代码 实例 来 理解 编码 ， 如 图 2.1 所 示 。 


str encode decode.py 


图 2.1 代码 实例 
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我 们 使 用 vim 编辑 器 编写 str encode decode.py. 在 第 一 行 指定 Python 解释 器 以 UTF-8 编 


码 解码 源 文件 ， 并 保存 为 UTF-8 编码 的 文本 文件 ， 然 后 运行 程序 。 这 一 编码 解码 过 的 程 如 图 
2.2 所 示 。 


文本 编辑 器 Vim/PyCharm Python 解释 器 


图 2.2 Python 源 代 码 的 编码 解码 过 程 

上 图 中 的 Unicode 字符 串 就 是 我 们 在 编辑 器 中 看 到 的 字符 串 ， 如 “我 是 中 国人 ”这 个 字符 
$, Æ Python 3 中 所 定义 的 字符 串 就 是 Unicode 字符 串 。Unicode 字符 串 可 以 编码 为 任意 编码 
格式 的 字 节 码 ， 解 码 时 使 用 同一 编码 解码 即 可 得 到 原来 的 Unicode 字符 串 。 

上 述 1.py 的 第 5 行将 Unicode 字符 串 内 容 以 UTF-8 的 编码 方式 写 入 到 atxt, 第 9 行 从 a.txt 
读 取 内 容 并 以 UTF-8 的 编码 解码 输出 Unicode 字符 串 ， 确 保 写 入 编码 和 读 取 编 码 一 致 就 不 会 
出 现 编码 问题 。 

上 述 代码 的 运行 结果 如 图 2.3 所 示 。 


shy 


图 2.3 运行 结果 


在 这 里 顺带 介绍 一 下 Python 语言 的 with ... as .的 用 法 ,有 一 些 任务 , 可 能 事先 需要 设置 ， 
事后 做 清理 工作 。 对 于 这 种 场景 ，Python 的 with 语句 提供 了 一 种 非常 方便 的 处 理 方式 。 一 个 
很 好 的 例子 是 文件 处 理 , 你 需要 获取 一 个 文件 句柄 , 并 从 文件 中 读 取 数 据 , 然后 关闭 文件 句柄 。 
如 果 不 用 with 语句 ， 代 码 如 下 : 


1 file = open("a.txt") 
2 data = file.read() 
3 file.close() 
这 里 有 两 个 问题 : 一 是 可 能 忘记 关闭 文件 句柄 ; 二 是 文件 读 取 数据 发 生 异 常 ， 没 有 进行 任 
何 处 理 。 下 面 是 处 理 异常 的 加 强 版 本 : 


1 file = open("a.txt") 

2 try: ， 间 尝 试 运行 下 面 的 代码 

3 data = file.read() 

4 finally: #2 LAM ABE AME. PRINS aT 
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5 file.close() 


虽然 这 段 代 码 运行 良好 ， 但 是 太 宛 长 了 ， 这 时 候 就 是 with 一 展 身 手 的 时 候 了 。 除 了 有 更 
优雅 的 语法 ，with 还 可 以 很 好 地 处 理 上 下 文 环境 产生 的 异常 。 下 面 是 with 版 本 的 代码 : 
1 with open("a.txt") as file: 
2 data = file.read() 

with 语句 里 是 怎么 执行 的 呢 ? Python 对 with 的 处 理 是 非常 聪明 的 ，with 所 求 值 的 对 象 必 
AA enter (方法 和 ”exit ODE, 紧 跟 with 后 面 的 语句 被 求 值 后 ， 调 用 对 象 的 _enter_() 
方法 ， 该 方法 的 返回 值 将 被 赋值 给 as 后 面 的 变量 。 当 with 后 面 的 代码 块 全 部 被 执行 之 后 ， 将 
调用 前 面 返回 对 象 的 _exit _() 方 法 来 收尾 。 

读者 可 能 会 有 疑问 ,如果 编写 Python 程序 时 未 指定 Python 解释 器 以 何 种 编码 解码 呢 ? 答 
案 是 使 用 系统 的 默认 编码 。 默 认 编码 可 以 通过 sys.getdefaultencoding() 来 查看 Python 解释 器 会 
用 的 默认 编码 ， 以 Windows 系统 为 例 : 


>>> import sys 

>>> sys.getdefaultencoding() 
'utf-8' 

>>> 


说 明 在 此 电脑 上 Python 解释 器 默认 使 用 的 是 UTF-8 编码 , 如 果 不 指 定 Python 解释 器 以 何 
种 编码 解码 ， 则 默认 以 UTF-8 方式 解码 源 文件 ， 因 此 在 保存 源 代 码 文件 时 请 确保 以 UTF-8 编 
码 保存 。 


2.1.2 文件 操作 


用 Python 或 其 他 语言 编写 应 用 程序 时 ， 若 想 把 数据 永久 保存 下 来 ， 必 须 保存 于 硬盘 中 ， 
这 就 涉及 我 们 编写 应 用 程序 来 操作 硬件 , 而 应 用 程序 是 无 法 直接 操作 硬件 的 , 需要 通知 操作 系 
统 ， 由 操作 系统 完成 复杂 的 硬件 操作 。 操 作 系统 把 复杂 的 硬件 操作 封装 成 简单 的 接口 给 用 户 / 
应 用 程序 使 用 , 其 中 文件 就 是 操作 系统 提供 给 应 用 程序 来 操作 硬盘 虚拟 接口 , 用 户 或 应 用 程序 
通过 操作 文件 , 可 以 将 自己 的 数据 永久 保存 下 来 。 有 了 文件 的 概念 ,我们 无 须 再 考虑 操作 硬盘 
的 细节 ， 只 需要 关注 操作 文件 的 流程 即 可 。 

CD 打开 文件 ， 得 到 一 个 文件 句柄 ， 并 赋值 给 一 个 变量 。 

(2) 通过 句柄 对 文件 进行 操作 。 

(3) 关闭 文件 。 

1. 普通 文件 操作 

Python 文件 操作 也 是 非常 简单 ， 只 需要 一 个 open 函数 返回 一 个 文件 句柄 ， 无 须 导 入 任何 
模块 。 


1 f-open("a.txt") # 打开 文件 ， 得 到 一 个 文件 句柄 ， 并 赋值 给 一 个 变量 
2 print (f.read()) # 打 印 读 取 文 件 的 内 容 
3 f.close() # 关 闭 文件 
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open 函数 原型 如 下 : 


open(file, mode-'r', buffering--1, encoding-None, errors=None, newline-None, 
closefd-True, opener-None) 


其 中 : 


(1) 参数 file 是 一 个 表示 文件 名 称 的 字符 串 ， 如 果 文 件 不 在 程序 当前 的 路 径 下 ， 就 需要 
在 前 面 加 上 相对 路 径 或 绝对 路 径 。 

(2) 参数 mode 是 一 个 可 选 字 参 数 ， 指 示 打 开 文件 的 方式 ， 若 不 指定 ， 则 默认 为 以 读 文 
本 的 方式 打开 文件 。 字 符 串 及 含义 可 参见 表 2-1。 


字符 串 含义 

ld 以 读 的 方式 打开 ( 
Ww 以 写 的 方式 打开 文 
bd 创建 一 个 新 文件 ， 

‘al 以 写 的 方式 打开 文 
"b 以 二 进 制 方式 打开 
lis 以 文本 方式 (默认 
+ 以 读 和 写 方式 打开 
通用 的 换行 模式 


表 2-1 字符 串 及 含义 


默认 ) 

件 ， 会 先 清空 文件 

以 写 方式 打开 

件 ， 如 果 文 件 已 存在 ， 就 在 文件 最 后 位 置 追加 内 容 
， 可 以 和 读 写 命令 共用 

) 

文件 ， 用 于 更 新 文件 

弃 用 ) 


默认 的 打开 方式 是 rt (mode='t’). Python 是 区 分 二 进 制 方式 和 文本 方式 的 ， 当 以 二 进 制 方 
式 打开 一 个 文件 时 Code 参数 后 面 跟 b') ， 返 回 一 个 未 经 解码 的 字 节 对 象 ， 当 以 文本 方式 打 
开 文 件 时 《〈 默 认 是 以 文本 方式 打开 ， 也 可 以 mode 参数 后 面 跟 t) ， 返 回 一 个 按 系统 默认 编码 


或 参数 encoding 传 入 的 编码 


来 解码 的 字符 串 对象 。 


(3) buffering 是 一 个 可 选 的 参数 ，buffering=0 表示 关闭 缓冲 区 〈 仅 在 二 进 制 方式 打开 时 


可 用 ) ; buffering=1 表示 选 
其 值 代表 固定 大 小 的 块 缓冲 


择 行 缓冲 区 〈 仅 在 文本 方式 打开 时 可 用 ) ; buffering 大 于 1 时 ， 
又 的 大 小 。 当 不 指定 该 参数 时 , 默认 的 缓冲 策略 是 这 样 的: 二 进 制 


文件 使 用 固定 大 小 的 块 缓冲 


区 ， 文 本 文件 使 用 行 缓冲 区 。 


【示例 2-1】 先 来 看 一 个 例子 。 


+ 


-*- coding: utf-8 - 


Fh 


= open("wb.txt", "w 
-write ("测试 w 方 式 写 入 


-Close() 


Fh 


c -) Oo U 5 UQIn7c 
Fh Fh 


Fh 


-write ("测试 a 方式 写 入 


WB 
th 


.close() 


H 
o 


o 
N 


za 


", encoding="utf-8") 


， 如 果 文件 存在 ， 则 清空 内 容 后 写 入 ;如 果 文件 不 存在 ， 则 创建 \n") 


= open("wb.txt", "a", encoding-"utf-8") 


， 如果 文件 存在 ， 则 在 文件 内 容 后 最 后 追加 写 入 ; 如 果 文 件 不 存在 ， 则 创建 


£ = open("wb.txt", 


data = f.read() 
print (type (data) ) 
print (data) 
f.close() 

f = open("wb.txt", "rb") 
data = f.read() 

print (type (data)) 

print (data) 

print (" 将 读 取 的 字符 对 象 解码 : ") 
print (data.decode ('utf-8')) 
f.close() 


"r", encoding-"utf-8") 


+ 以 文本 方式 读 ，f.read() 返回 字符 串 对 象 


+ 以 文本 方式 读 ，f.read () 返 回 字 节 对 象 


将 上 述 代码 保存 为 read_write_file py， 运 行 结果 如 图 2.4 所 示 。 


从 上 面 的 例子 可 以 看 出 ， 以 二 进 制 


指定 的 编码 格式 进行 
请 注意 以 下 几 点 : 


(1) 记得 使 用 


的 编码 )》， 将 读 取 


P 
完毕 


后 及 时 关闭 文人 


-个 不 落地 回收 ， 回 收 操作 系统 级 打开 


用 资源 ， 而 Python É 
毕 文件 后 ， 一 定 要 记 
瓜 式 操作 方式 : 使 
常 ， 如 下 面 两 行 代码 
with open('a.txt','w') as f: 
f.write("hello word") 


图 2.4 运行 结果 


:， 释 放 资 源 。 打 开 


re 
LPS 


卖 取 文件 时 ， 读 取 的 是 
的 字 节 对 象 解码 ， 可 条 


-个 文件 包含 两 部 分 资源 : 操作 
统 级 打开 的 文件 + 应 用 程序 的 变量 。 在 操作 完毕 一 个 文件 时 ，4 
文件， 如 f.close(), [A 
其 中 delf 一 定 要 发 生 在 fclose() 之 后 , 否则 就 会 导致 操作 系统 


记 使 


文件 字符 串 的 编码 (以 encoding 


出 原 字符 串 。 


必须 把 与 该 文件 的 这 两 部 分 资源 
收 应 用 程序 级 的 变量 ， 如 del fo 
J 开 的 文件 还 没有 关闭 ,白白 占 


动 的 垃圾 回收 机 制 决定 了 我 们 无 须 考虑 del f， 这 就 要 求 我 们 ， 在 操作 完 
E f.close()。 刚 开始 的 时 候 很 容 
with 关键 字 来 帮 我 们 管理 上 下 文 ， 系 统 会 自动 为 我 们 关闭 文件 和 处 理 异 
即 可 完成 安全 的 写 操作 。 


fclose() 方 法 去 关闭 ， 推 荐 傻 


(2) open() 函 数 是 由 操作 系统 打开 文件 ， 如 果 我 们 没有 为 open 指定 编码 ， 那 么 打开 文件 
的 默认 编码 很 明显 是 操作 系统 默认 的 编码 : 在 Windows 下 是 gbk， 在 Linux 下 是 utf8。 若 要 
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保证 不 乱码 ， 就 必须 让 读 取 文 件 和 写 入 文件 使 用 的 编码 一 致 。 
常见 的 文件 操作 方法 可 参见 表 2-2。 
表 2-2 常见 的 文件 操作 方法 


名 称 功能 

fread) 读 取 所 有 内 容 ， 光 标 移动 到 文件 末尾 
freadline() 读 取 一 行内 容 ， 光 标 移动 到 第 二 行 首部 
freadlines() 读 取 每 一 行内 容 ， 存 放 于 列表 中 
f.write('1111\n222\n') 针对 文本 模式 的 写 ， 需 要 自己 写 换行 符 
f.write(1111\n222\n'.encode(‘utf-8')) 针对 模式 的 写 ， 需 要 自己 写 换行 符 
f.writelines({'333\n','444\n')) 文件 模式 


'333\n',encoding="utf-8'),'444\n' encode('utf-8' b 模式 


文件 是 否 关闭 


如 果 文 件 打开 模式 为 b, 则 没有 该 属性 
立刻 将 文件 内 容 从 内 存 刷 到 硬盘 


读 取 文件 内 位 置 的 定位 方法 : 


(1) 通过 read 方法 传输 参数 ， 如 read(3)， 当 文件 打开 方式 为 文本 模式 时 ， 代 表 读 取 3 个 
字符 ， 当 文件 打开 方式 为 二 进 制 模式 时 ， 代 表 读 取 3 个 字 节 。 

(2) 以 字 节 为 单位 定位 ， 如 seek. tell 等 方法 。 其 中 seek 有 3 种 移动 方式 : 0. 1. 2, 其 
中 1 和 2 必须 在 二 进 制 模式 下 进行 ， 但 无 论 哪 种 模式 ， 都 是 以 bytes 为 单位 移动 的 。f.tell() 返 
回 文件 对 象 当前 所 处 的 位 置 , 它 是 从 文件 开头 开始 算 起 的 字 节 数 。 如 果 要 改变 文件 当前 的 位 
置 ， 可 以 使 用 fseek(offset from what) 函数 。from_what 如 果 是 0， 则 表示 开头 ， 如 果 是 1， 
则 表示 当前 位 置 ， 如 果 是 2， 则 表示 文件 的 结尾 。 例 如 : 


€  seek(x,0) 表示 从 起 始 位 置 即 文件 首 行 首 字符 开始 移动 X 个 字符 ; 
© seek(x,1) 表 示 从 当前 位 置 向 后 移动 X 个 字符 ; 
€ seek(-x,2) 表 示 从 文件 的 结尾 向 前 移动 x 个 字符 。 


【示例 2-2】 在 文件 中 定位 。 


>>> f = open("tmp.txt", "rb+") 

>>> f.write (b"abcdefghi") 

9 

>>> f.seek (5) # 移动 到 文件 的 第 六 个 字 节 

5 

>>> print (f.read (1) ) 

Ld 

>>> f.seek(-3, 2) # 移动 到 文件 的 倒数 第 三 个 字 节 
6 

>>> print(f.read (1) ) 
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b'g' 
【示例 2-3] 3&T seek 实现 类 似 Linux 命令 tail 地 的 功能 (文件 名 为 Ix_tailfpy) 。 
1 # encoding=utf-8 
2 
3 import time 
4 
5 with open('tmp.txt', 'rb') as f: 
6 f.seek(0, 2) # 将 光标 移动 至 文件 末尾 
7 while True: # 实时 显示 文件 新 增加 的 内 容 
8 line = f.read() 
9 if line: 
10 print (line.decode('utf-8'), end-'") 
11 else: 
12 time.sleep(0.2) + 读 取 完毕 后 短暂 的 睡眠 
当 tmp.txt 追加 新 的 内 容 时 ， 新 内 容 会 被 程序 立即 打印 出 来 。 
2. 大 文件 的 读 取 
当 文 件 较 小 时 , 我 们 可 以 一 次 性 全 部 读 入 内 存 ， 对 文件 的 内 容 做 出 任意 修改 , 再 保存 至 磁 
fit, HERREN A. 


【示例 2-4】 如 下 代码 将 文件 atxt 中 的 字符 串 strl 替换 为 str2。 


with open('a.txt') as read f,open('.a.txt.swap','w') as write f: 
data-read f.read() # 全 部 读 入 内 存 , 如 果 文件 很 大 , 则 会 很 卡 
data-data.replace('strl','str2') # 在 内 存 中 完成 修改 


1 
2 
S 
4 
5 write f.write(data) # 一 次 性 写 入 新 文件 
6 


7 os.remove('a.txt') 
8 os.rename('.a.txt.swap','a.txt') 

当 文件 很 大 时 ， 如 GB 级 的 文本 文件 ， 上面 的 代码 运行 将 会 非常 缓慢 ， 此 时 我 们 需要 使 用 
文件 的 可 和 迭代 方式 将 文件 的 内 容 逐 行 读 入 内 存 , 再 逐 行 写 入 新 文件 ,最 后 用 新 文件 覆盖 源 文件 。 


【示例 2-5】 对 大 文件 进行 读 写 。 


import os 
with open('a.txt') as read f,open('.a.txt.swap','w') as write f: 
for line in read f: # WAWA(UIR rxkfWefE. DEP Eg 
line-line.replace("strl','str2') 
write f.write(line) 
os.remove('a.txt') 
os.rename('.a.txt.swap','a.txt') 


本 示例 中 的 大 文件 为 atxt, SEAT IPCC, REI I DEFUI S read. f, Xs RTI 
对 象 进行 逐 行 读 取 ， 可 防止 内 存 溢 出 ， 也 会 加 快 处 理 速度 。 
处 理 大 数据 还 有 多 种 方法 ， 如 下 : 


wwwmn 
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(1) 通过 read(size) 增 加 参数 ， 指 定 读 取 的 字 节 数 。 


while True: 
block = f.read(1024) 
if not block: 
break 


(2) 通过 readline， 每 次 只 读 一 行 。 


while True: 
line = f.readline() 
if not line: 
break 


file 对 象 常用 的 函数 参见 表 2-3. 
表 2-3 file 对 象 常用 的 函数 


函数 功能 

file.close() 关闭 文件 。 关 闭 后 文件 不 能 再 进行 i 

file.flush() 刷新 文件 内 部 缓冲 ， 直 接 把 内 部 缓冲 区 的 数据 立刻 写 入 文件 ， 而 不 是 被 
动 等 待 输 出 缓冲 区 写 入 

file.fileno() 返回 一 个 整 型 的 文件 描述 符 Cfile descriptor FD 整 型 ) ， 可 以 用 在 如 os 
模块 的 read 方法 等 一 些 底层 操作 上 

file.isatty() 如 果 文 件 连接 到 一 个 终端 设备 ， 则 返回 Tme， 否 则 返回 False 

file.nexti 返回 文件 下 一 行 

file.read([size 从 文件 读 取 指 定 的 字 节 数 ， 如 果 未 给 定 或 为 负 ， 则 读 取 所 有 

file. readline([size’ 读 取 整 行 ， 包 括 "Ua" 字符 

file.readlines([sizeint]) 读 取 所 有 行 并 返回 列表 ， 若 给 定 sizeint>0， 则 返回 总 和 为 sizeint 字 节 的 
1f, 实际 读 取 值 可 能 比 sizeint K, 因为 需要 填充 缓冲 区 

file.seek(offset[, whence 设置 文件 当前 位 置 

file.tell() 返回 文件 当前 位 置 

file.truncate([size 根据 size 参数 截取 文件 ，size 参数 可 选 

file.write(str 将 字符 串 写 入 文件 ， 没 有 返回 值 

file.writelines(sequence 向 文件 写 入 一 个 序列 字符 串 列 表 ， 如 果 需 要 换行 ， 则 加 入 每 行 的 换行 符 


3. 序列 化 和 反 序 列 化 

什么 是 序列 化 和 反 序 列 化 呢 ? 我 们 可 以 这 样 简单 地 理解 : 

e ”序列 化 : 将 数据 结构 或 对 象 转换 成 二 进 制 串 的 过 程 。 

e 反 序 列 化 : 将 在 序列 化 过 程 中 所 生成 的 二 进 制 串 转换 成 数据 结构 或 对 象 的 过 程 。 

Python 的 pickle 模块 实现 了 基本 的 数据 序列 和 反 序 列 化。 通过 pickle 模块 的 序列 化 操作 ， 
我 们 能 够 将 程序 中 运行 的 对 象 信息 保存 到 文件 中 并 永久 存储 。 通 过 pickle 模块 的 反 序列 化 操 
作 ， 我 们 能 够 从 文件 中 创建 上 一 次 程序 保存 的 对 象 。 

基本 方法 如 下 : 


pickle.dump(obj, file, [,protocol]) 
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该 方法 实现 序列 化 ， 将 对 象 obj 保存 至 文件 中 。 
x=pickle.load (file) 


去 实现 反 序 列 化 ， 从 文件 中 恢复 对 象 ， 并 将 其 重 构 为 原来 的 Python 对 象 。 
注解 : 从 file 中 读 取 一 个 字符 串 ， 并 将 其 重 构 为 原来 的 Python 对 象 。 


【示例 2-6】 序 列 化 实例 Cexample serialize.py). 。 


1 # encoding:utf-8 

2 

3 

4 import pickle 

5 

6 # 使 用 pickle 模块 将 数据 对 象 保存 到 文件 
7 

8 + 字符 串 

9 data0 = "hello world" 

10 # 列表 

11 datal - list(range(20))[1::2] 
12 4 元 组 

13 dataz = ("xm My" "2m 

14 $ 字典 

15 data3 = ("a": data, "b": datal, "c": data2) 
16 


17 print (data0) 
18 print (datal) 
19 print (data2) 
20 print (data3) 


22 output - open("data.pkl", "wb") 


24 4 使 用 默认 的 protocol 

25 pickle.dump(data0, output) 
26 pickle.dump(datal, output) 
27 pickle.dump(data2, output) 
28 pickle.dump(data3, output) 
29 output.close() 


上 述 代 码 将 不 同 的 Python 对 象 依次 写 入 文件 ， 并 打印 对 象 的 相关 信息 , 运行 结果 如 图 2.5 
所 示 。 


寺 果 


【示例 2-7】 反 序列 化 演示 (example _deserialization. py) 。 
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# encoding-utf-8 


import pickle 


it 

2 

3 

4 

5 # 使 用 pickle 模块 从 文件 中 重 构 Python HR 
6 pkl file = open("data.pkl", "rb") 

7 

8 data0 = pickle.load(pkl file) 

9 datal = pickle.load(pkl file) 
10 data2 = pickle.load(pkl file) 
11 data3 = pickle.load(pkl file) 


13 print (data0) 
14 print (datal) 
15 print (data2) 
16 print (data3) 


18 pkl file.close() 
上 述 代码 从 文件 中 依次 恢复 序列 化 对 象 , 并 打印 对 象 的 相关 信息 , 运行 结果 如 图 2.6 所 示 。 


图 2.6 运行 结果 


可 以 看 出 运行 结果 与 序列 化 实例 运行 的 结果 完全 一 致 。 


2.1.3” 读 写 配置 文件 
配置 文件 是 供 程 序 运 行 时 读 取 配置 信息 的 文件 , 用 于 将 配置 信息 与 程序 分 离 , 这 样 做 的 好 
处 是 显而易见 的 : 例如 在 开源 社区 贡献 自己 源 代码 时 ， 将 一 些 敏 居 
交 源 代码 时 不 提交 配置 文件 可 以 避免 自己 的 用 户 名 、 密 码 等 言 息 泄露 ; 我 们 可 以 通过 配置 
文件 保存 程序 运行 时 的 中 间 结 果 ; 将 环境 信息 (如 操作 系统 类 型 ) 写 入 配置 文件 会 增加 程序 的 
兼容 性 ， 使 程序 变 得 更 加 通用 。 
Python 内 置 的 配置 文件 解析 器 模块 configparser 提供 ConfigParser 类 来 解析 基本 的 配置 文 
件 , 我们 可 以 使 用 它 来 编写 Python 程序 , 让 用 户 最 终 通过 配置 文件 轻松 定制 自己 需要 的 Python 
应 用 程序 。 
常见 的 pip 配置 文件 如 下 。 
[global] 
index-url = https://pypi.doubanio.com/simple 
trusted-host = pypi.doubanio.com 
【示例 2-8】 现 在 我 们 编写 一 个 程序 来 读 取 配置 文件 的 信息 (read confpy) 。 


1 # encoding-utf-8 
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import configparser 


0 -) O Ou Q n 


config = configparser.ConfigParser () 4 实例 化 ConfigParser 类 
config.read(r"c:\users\xx\pip\pip- ini") + 读 取 配 置 文件 
print ("遍历 配置 信息 :") 
9 for section in config.sections(): # 首先 读 取 sections 
10 print (f"section is [{section}]") 
11 for key in config[section]: + 讲 到 每 个 section 的 键 和 值 
12 print (f"key is [{key}], value is [(config[section][key])]") 打印 键 和 
值 
13 
14 print (" 通 过 键 获取 相应 的 值 :") 
15 print(f"index-url is [(config['global']['index-url']]]") 


16 print(f"trusted-host is [(config['global']['trusted-host']]]") 

上 述 代码 通过 实例 化 ConfigParser 类 读 取 配 置 文件 ， 遍 历 配 置 文件 中 的 section 信息 及 其 
键 值 信息 ， 通 过 索引 获取 值 信息 。 在 命令 窗口 执行 python read. conf.py 得 到 如 图 2.7 所 示 的 运 
行 结果 。 


图 2.7 运行 结果 图 


【示例 2-9] 将 相关 信息 


文件 Cwrite confpy) 。 


1 # encoding=utf-8 

2 import configparser 

3 

4 config = configparser.ConfigParser () 
5 config["DEFAULT"] = { 

6 "ServerAliveInterval": "45", 

7 "Compression": "yes", 

8 "CompressionLevel": "9", 

zog 

10 config["bitbucket.org"] = {} 

11 config["bitbucket.org"]["User"] = "hg" 
12 config["topsecret.server.com"] = () 


13 topsecret - config["topsecret.server.com"] 

14 topsecret["Port"] = "50022" 4 mutates the parser 

15 topsecret["ForwardX11"] = "no" # same here 

16 config["DEFAULT"]["ForwardXll"] = "yes" 

17 with open("example.ini", "w") as configfile: # 将 上 述 配置 信息 config 写 入 文件 
example.ini 
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18 config.write (configfile) 


20 with open("example.ini", "r") as f: # 读 取 example.ini 验证 上 述 写 入 是 否 正确 
21 print (f.read()) 


EË write conf. py 通过 实例 化 ConfigParser 类 增加 相关 配置 信息 ,最 后 写 入 配置 文件 。 执 
fT python write confpy， 运 行 结果 如 图 2.8 所 示 。 


图 2.8 运行 结果 


从 上 面 读 写 配置 文件 的 例子 可 以 看 出 ，configparser 模块 的 接口 非常 直接 、 明 确 。 请 注意 


€ section 名 称 是 区 分 大 小 写 的 。 

€ section 下 的 键 值 对 中 键 是 不 区 分 大 小 写 的 , config["bitbucket.org"]["User"] 在 写 入 时 会 
统一 变 成 小 写 user 保存 在 文件 中 。 

€ section 下 的 键 值 对 中 的 值 是 不 区 分 类 型 的 ， 都 是 字符 串 ， 具 体 使 用 时 需要 转换 成 需 
要 的 数据 类 型 ， 如 int(config['topsecret.server.com'][ port])， 值 为 整数 50022。 对 于 一 
些 不 方便 转换 的 ， 解析 器 提供 了 一 些 常 用 的 方法 ， 如 getboolean(). getint(). getfloat() 

等 ， 如 config["DEFAULT"].getboolean('Compression')) 的 类 型 为 bool， 值 为 True。 用 
户 可 以 注册 自己 的 转换 器 或 定制 提供 的 转换 方法 。 

€ section 的 名 称 是 [DEFAULT] 时 ， 其 他 section 的 键 值 会 继承 [DEFAULT] 的 键 值 信息 。 
如 本 例 中 config["bitbucket.org"]['ServerAliveInterval"]) 的 值 是 45. 


2.1.4 解析 XML 文件 


XML 的 全 称 是 eXtensible Markup Language， 意 为 可 扩展 的 标记 语言 ， 是 一 种 用 于 标记 电 
文件 使 其 具有 结构 性 的 标记 语言 。 以 XML 结构 存储 数据 的 文件 就 是 XML 文件 , 它 被 设计 
来 传输 和 存储 数据 。 例 如 有 以 下 内 容 的 xml 文件 : 
<note> 


<to>George</to> 
<from>John</from> 
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<heading>Reminder</heading> 
<body>Don't forget the meeting!</body> 
</note> 

其 内 容 表 示 一 份 便 签 ， 来 自 John， 发 送 给 George， 标 题 是 Reminder， 正 文 是 Don't forget 
the meeting!。XML 本 身 并 没有 定义 note, to, from 等 标签 ， 是 生成 xml 文件 时 自 定义 的 ， 但 
我 们 仍 能 理解 其 含义 。XML 文档 仍然 没有 做 任何 事情 ， 它 仅仅 是 包装 在 XML 标签 中 的 纯粹 
信息 。 我 们 编写 程序 来 获取 文档 结构 信息 就 是 解析 XML 文件 。 

Python 有 三 种 方法 解析 XML: SAX. DOM, ElementTre. 


1. SAX (simple API for XML ) 


SAX 是 一 种 基于 事件 驱动 的 API， 使 用 时 涉及 两 个 部 分 ， 即 解析 器 和 事件 处 理 器 。 解 析 
器 负责 读 取 XML 文件 ， 并 向 事件 处 理 器 发 送 相应 的 事件 (如 元 素 开 始 事件 、 元 素 结束 事件 ) 。 
事件 处 理 器 对 相应 的 事件 做 出 响应 , 对 数据 做 出 处 理 。 使 用 方法 是 先 创建 一 个 新 的 XMLReader 
对 象 ， 然 后 设置 XMLReader 的 事件 处 理 器 ContentHandler， 最 后 执行 XMLReader 的 parse() 
Jk. 

e 创建 一 个 新 的 XMLReader 对 象 ，parser list. 是 可 选 参 数 ， 是 解析 器 列表 

xml.sax.make_parser( [parser_list] ). 
€ 自 定义 事件 处 理 器 ， 继 承 ContentHandler 类 ， 该 类 的 方法 可 参见 表 2-4。 


表 2-4 ContentHandler 类 的 方法 


名 称 功能 

characters(content) 从 行 开始 ， 遇 到 标签 之 前 ， 存 在 字符 ，content 的 值 为 这 些 字符 串 。 从 一 个 
标签 ， 遇 到 下 一 个 标签 之 前 ， 存在 字符 ，content 的 值 为 这 些 字 符 串 。 从 
一 个 标签 ， 遇 到 行 结束 符 之 前 ， 存 在 字符 ，content 的 值 为 这 些 字符 串 。 标 
签 可 以 是 开始 标签 ， 也 可 以 是 结束 标签 


startDocument) 文档 启动 时 调用 

endDocument() 解析 器 到 达 文档 结尾 时 调用 

startElement(name, attrs) 遇 到 XML 开始 标签 时 调用 ，name 是 标签 的 名 字 ，attrs 是 标签 的 属性 值 字 
典 

endElement(name 遇 到 XML 结束 标签 时 调用 


执行 XMLReader 的 parse() 方 法 : 


xml.sax.parse( xmlfile, contenthandler[, errorhandler]) 
参数 说 明 : 


€ xmlstring: xml 4t $. 
€  contenthandler: 必须 是 一 个 ContentHandler 的 对 象 。 
€  emorhandler: 如 果 指 定 该 参数 ，errorhandler 必须 是 一 个 SAX ErrorHandler 对 象 。 


【示例 2-10】 下 面 来 看 一 个 解析 XML 的 例子 。example xml 内容 如 下 : 
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FPeODIVHAWNKH 
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Ne So 
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19 
20 
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Xbreakfast menu year-"2018"» 
«food» 
<name>Belgian Waffles</name> 
<price>$5.95</price> 
<description> 
two of our famous Belgian Waffles with plenty of real maple syrup 
</description> 
<calories>650</calories> 
</food> 

<food> 

<name>Strawberry Belgian Waffles</name> 

<price>$7.95</price> 

<description> 

light Belgian waffles covered with strawberries and whipped cream 
</description> 

<calories>900</calories> 

</food> 

<food> 

«name»Berry-Berry Belgian Waffles</name> 

«price»$8.95«/price» 

«description» 

light Belgian waffles covered with an assortment of fresh berries and whipped 


cream 


23 
24 
25 
26 
27 
28 
29 
30 
3r 
32 
23 
34 
35 
36 
37 
38 
39 
40 
41 
42 


m 
2 
3 
4 
5 
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</description> 

<calories>900</calories> 

</food> 

<food> 

<name>French Toast</name> 

<price>$4.50</price> 

<description> 

thick slices made from our homemade sourdough bread 
</description> 

<calories>600</calories> 

</food> 

<food> 

<name>Homestyle Breakfast</name> 
<price>$6.95</price> 

<description> 

two eggs, bacon or sausage, toast, and our ever-popular hash browns 
</description> 

<calories>950</calories> 

</food> 

</breakfast_menu> 


read xmlpy 内 容 如 下 : 
#!/usr/bin/python3 


import xml.sax 
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6 class MenuHandler (xml.sax.ContentHandler) : 


7 

8 def init (self): 

9 self.CurrentData = "" 

10 Self.name = "" 

11 self.price - "" 

12 self.description = "" 

13 self.calories = "" 

14 

15 元 素 开始 调用 

16 def startElement (self, tag, attributes): 
m self.CurrentData = tag 

18 if tag -- "breakfast menu": 

19 print (" 这 是 一 个 早餐 的 菜单 ") 

20 year = attributes["year"] 

21 print (f" 年 份 {year}\n") 

22 

23 + 读 取 字符 时 调用 

24 def characters(self, content): 

25 if self.CurrentData == "name": 

26 self.name = content 

27 elif self.CurrentData == "price": 

28 self.price = content 

29 elif self.CurrentData == "description": 
30 # 如 果 有 内 容 有 换行 ， 就 累加 字符 串 ， 输 出 后 清空 该 属性 
ST self.description += content 

32 elif self.CurrentData == "calories": 
33 self.calories - content 

34 else: 

35 pass 

36 

37 # 元 素 结束 调用 

38 def endElement (self, tag): 

39 if self.CurrentData "name": 

40 print (f"name: (self.name)") 

41 elif self.CurrentData == "price": 

42 print (f"price: {self.price}") 

43 elif self.CurrentData == "description": 
44 print (f"description: {self.description}") 
45 + 内 容 有 换行 时 ， 获 取 字符 串 后 清空 该 属性 ， 为 下 一 个 标签 准备 
46 self.description = "" 

47 elif self.CurrentData == "calories": 

48 print (f"calories: {self.calories}") 
49 elses 

50 pass 

Si self.CurrentData = "" 

52 

53 

54 if name ==" main ": 

55 + 创建 一 个 xMLReader 

56 parser = xml.sax.make parser () 
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57 # 重 写 ContextHandler 


58 Handler = MenuHandler () 

59 parser.setContentHandler (Handler) 
60 

61 parser.parse ("example.xml") 


代码 说 明 : read xml.py 自 定 义 一 个 MenuHandler， 继 承 自 xml.sax.ContentHandler, fi 

ContentHandler 的 方法 来 处 理 相应 的 标签 。 在 主 程序 入 口 先 获取 一 个 XMLReader 对 象 ， 并 设 

iu 处 理 器 为 自 定义 的 MenuHandler, 最 后 调用 parse 方法 来 解析 example.xml. 运行 结果 
如 图 2.9 所 示 。 


图 2.9 运行 结果 
SAX 用 事件 驱动 模型 ,通过 在 解析 XML 的 过 程 中 触发 一 个 个 的 事件 并 调用 用 户 定 
调 函数 来 处 理 XML 文件 ， 一 次 处 理 一 个 标签 ， 无 须 事先 全 部 读 取 整 个 XML 文档 ， 处 理 衣 
较 高 。 其 适用 场景 如 下 : 


e 对 大 型 文件 进行 处 理 。 

@ 只 需要 文件 的 部 分 内 容 ， 或 者 只 须 从 文件 中 得 到 特定 信息 。 
e 。” 想 建立 自己 的 对 象 模型 时 

2. DOM ( Document Object Model ) 


文件 对 象 模型 (Document Object Model, DOM) 是 W3C 组 织 推 荐 的 处 理 可 扩展 置 标语 言 
的 标准 编程 接口 。 一 个 DOM 的 解析 器 在 解析 一 个 XML 文档 时 ， 一 次 性 读 取 整个 文档 ， 把 
文档 中 的 所 有 元 素 保 存在 内 存 中 一 个 树 结构 里 ， 之 后 可 以 利用 DOM 提供 的 不 同 函 数 来 读 取 
或 修改 文档 的 内 容 和 结构 ， 也 可 以 把 修改 过 的 内 容 写 入 xml 文件 。 


【示例 2-11】 使 用 xml.dom.minidom 解析 xml 文件 。 
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dom xml.py 内 容 如 下 : 
#!/usr/bin/python3 


from xml.dom.minidom import parse 
import xml.dom.minidom 


+ 使 用 minidom 解析 器 打开 XML 文档 
DOMTree = xml.dom.minidom.parse ("example.xml") 
collection = DOMTree.documentElement 
if collection.hasAttribute ("year"): 
print (f" 这 是 一 个 早餐 的 菜单 \n 年 份 {collection.getAttribute('year') }") 


+ 在 集合 中 获取 所 有 早餐 菜单 信息 


foods = collection.getElementsByTagName ("food") 


# 打印 每 个 菜单 的 详细 信息 

for food in foods: 
type = food.getElementsByTagName ("name") [0] 
print ("name: %s" % type.childNodes[0] .data) 
format = food.getElementsByTagName ("price") [0] 
print ("price: %s" % format.childNodes [0] .data) 
rating = food.getElementsByTagName ("description") [0] 
print ("description: %s" $ rating.childNodes [0] .data) 
description = food.getElementsByTagName ("calories") [0] 
print ("calories: $s" $ description.childNodes [0] .data) 


代码 说 明 : 代码 使 用 minidom 解析 器 打开 XML 文档 ， 使 用 getElementsByTagName 方法 


获取 所 有 标签 并 遍历 子 标 签 ， 逻 辑 上 比 SAX 要 直观 ， 运 行 结果 如 图 2.10 所 示 ， 与 SAX 运行 


结果 


图 2.10 运行 结果 
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3. ElementTre 
ElementTre 将 XML 数据 在 内 存 中 解析 成 树 ， 通 过 树 来 操作 XML. 
【示例 2-12] ElementTre 解析 XML. 


ElementTre_xml.py 内 容 如 下 : 


# -*- encoding: utf-8 -*- 
import xml.etree.ElementTree as ET 


tree = ET.parse ("example.xml" 
root = tree.getroot() 
print (f" 这 是 一 个 早餐 菜单 \n{root.attrib['year']}") 


for child in root: 
print("name:", child[0].text) 
print("price:", child[1].text) 
print("description:", child[2].text) 
print("calories:", child[3].text) 


代码 相当 简洁 ， 运 行 结果 如 图 2.11 所 示 。 


图 2.11 运行 结果 


运 维 离 不 开 对 系统 信息 的 监控 ， 如 CPU 的 使 用 率 、 内 存 的 占用 情况 、 网 络 、 进 入 


A 
ESF 


相关 
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信息 都 需要 被 监控 , 虽然 我 们 可 以 通过 操作 系统 提供 的 任务 管理 器 或 命令 查看 相关 信息 , 但 仍 
不 能 简化 这 些 日 常 的 运 维 任务 。 如 果 我 们 通过 编写 程序 获取 以 上 信息 , 那么 系统 信息 监控 就 是 
一 件 轻松 而 简单 的 工作 。 

在 Python 中 获取 系统 信息 最 便捷 的 模块 是 psutil (process and system utilities) 。 通 过 简短 
的 几 行 代码 就 可 以 获取 系统 相关 信息 ， 而 且 还 是 跨 平 台 库 。psutil 不 属于 标准 库 ， 需 要 手动 安 
装 。 安 装 psutil 非常 简单 ， 执 行 以 下 命令 即 可 。 


pip install psutil 


如 果 生 产 环境 没有 联网 则 可 以 先 在 外 网 使 用 pip 下 载 ， 再 移动 至 生产 环境 安装 。 为 了 方便 
显示 语句 运行 结果 ， 下 面 使 用 Python 解释 器 。 在 此 呢 嗪 一 下 ，IPython 是 学 习 Python 的 利器 ， 
是 让 Python 显得 友好 十 倍 的 外 套 ， 强 烈 建议 读者 使 用 IPython， 可 通过 pip install ipython 安装 
IPython. 

下 面 一 一 列举 使 用 方法 。 


【示例 2-13】 监 控 CPU 信息 。 


In[2]: import psutil #ẸA psutil 模拟 
In[3]: psutil.cpu times() # 获取 CPU (逻辑 CPU 的 平均 ) 占用 时 间 的 详细 信息 
out [3] : scputimes (user=44440.75, system-31407.90625000003, 
idle=199354.99999999997, interrupt=1167.984375, dpc=663.15625) 
In[4]: psutil.cpu times(percpu-True) # 获取 每 个 CPU 占用 时 间 的 详细 信息 
Out [4] : 

[scputimes (user=21201.46875, system=16264.109374999985, idle=100172.96875, 
interrupt=888.203125, dpc=620.484375), 

scputimes (user=23254.671875, system=15151.0625, idle=99231.75, 
interrupt-280.125, dpc=43.015625) ] 
In[5]: psutil.cpu count() # CPU 逻辑 数量 


out [5]: 2 
In[6]: psutil.cpu count (logical=False) # CPU 物理 数量 
Out[6]: 2 


In[7]: psutil.cpu percent() #cPU 占 比 

Out [7]: 35.0 

In[8]: psutil.cpu percent (percpu=True) # 每 个 CPU 的 占 比 
OITA E3557 36-01 


【示例 2-14】 监 控 内 存 信息 。 


In[11] :psutil.virtual memory() 
Out[11]: svmem(total=4196921344, available=644300800, percent=84.6, 
used=3552620544, free=644300800) 


这 里 的 数值 是 以 字 节 为 单位 显示 的 ， 如 需要 转 成 MB、GB 自行 转换 一 下 即 可 。 
【示例 2-15】 监 控 磁盘 信息 。 


In[12] :psutil.disk partitions () 
Out[12]: 
[sdiskpart (device='C:\\', mountpoint='C:\\', fstype-'NTFS', opts-'rw,fixed'), 


nf 
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sdiskpart (device='D:\\', mountpoint='D:\\', fstype-'NTFS', opts='rw, fixed"), 
sdiskpart (device='E:\\', mountpoint='E:\\', fstype-'NTFS', opts-'rw,fixed'), 
sdiskpart (device='F:\\', mountpoint= NV, fstype-'NTFS', opts-'rw,fixed'), 
sdiskpart (device='G:\\', mountpoint='G:\\', fstype-'', opts-'cdrom'), 
sdiskpart (device='"J:\\', mountpoint='J:\\', fstype-'', opts-'removable')] 
In[13]:psutil.disk usage('/') 4 磁盘 使 用 情况 

out [13]: sdiskusage(total-192703098880, used=124325285888, free=68377812992, 
percent=64.5) 

In[14]:psutil.disk io counters () 

Out [14]: sdiskio(read count=1374834, write count=618746, read bytes=57800820224, 
write bytes=32607985152, read time-22674, write time=3128) 


【示例 2-16】 监 控 网 络 信息 。 


In[15]: psutil.net io counters() # 获取 网 络 读 写字 节 / 包 的 个 数 
Out[15]: snetio(bytes sent-97428473, bytes recv=432067604, packets sent=764033, 
packets recv-811013, errin-1, errout-232, dropin-1, dropout-0) 
In[16]: psutil.net if addrs() # 获取 网 络 接口 信息 
out [16] : 
{ "以 太 网 ' : [snic(family-«AddressFamily.AF LINK: -1>, address-'C8-D3-FF-DC-D2-F9', 
netmask=None, broadcast=None, ptp=None), 

snic (family=<AddressFamily.AF INET: 2>, address='169.254.9.109', 
netmask='255.255.0.0', broadcast=None, ptp=None), 

snic (family=<AddressFamily.AF INET6: 23>, address-'fe80::f546:b03e:6122:96d', 
netmask=None, broadcast=None, ptp=None) ], 

"WAM 2': [snic(family-«AddressFamily.AF LINK: -1>, 
address-'08-00-58-00-00-05', netmask-None, broadcast=None, ptp-None), 

snic(family-«AddressFamily.AF INET: 2», address='192.168.25.90', 
netmask-'255.255.255.0', broadcast-None, ptp-None), 

snic(family-«AddressFamily.AF INET6: 23>, address-'fe80::b59c:a707:c281:37fa', 
netmask-None, broadcast-None, ptp-None)], 

"本 地 连接 * 3': [snic(family-«AddressFamily.AF LINK: -1>, 
address-'3E-A0-67-62-7F-91', netmask-None, broadcast=None, ptp=None), 

snic (family=<AddressFamily.AF INET: 2>, address='169.254.143.17', 
netmask='255.255.0.0', broadcast=None, ptp=None), 

snic (family=<AddressFamily.AF INET6: 23>, address='fe80::2d42:a622:9c08:8f11', 
netmask=None, broadcast=None, ptp=None) ], 
"蓝牙 网 络 连接 ' : [snic(family-«AddressFamily.AF LINK: -1>, 
address-'3C-A0-67-62-7F-92', netmask=None, broadcast=None, ptp-None), 

snic (family=<AddressFamily.AF INET: 2>, address='169.254.129.196', 
netmask='255.255.0.0', broadcast=None, ptp=None), 

snic (family=<AddressFamily.AF INET6: 23>, address-'fe80::c4d5:6dfb:a94c:81c4', 
netmask=None, broadcast=None, ptp=None) ], 

' 本 地 连接 * 8': [snic(family-«AddressFamily.AF LINK: -1>, 
address-'00-00-00-00-00-00-00-E0', netmask-None, broadcast-None, ptp-None), 

snic(family-«AddressFamily.AF INET6: 23», address-'fe80::100:7f:fffe', 
netmask-None, broadcast-None, ptp-None)], 

'Loopback Pseudo-Interface 1': [snic(family-«AddressFamily.AF INET: 2», 
address-'127.0.0.1', netmask-'255.0.0.0', broadcast-None, ptp-None), 

snic(family-«AddressFamily.AF INET6: 23>, address-'::1', netmask-None, 
broadcast-None, ptp=None) ]} 
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In[17]: psutil.net if stats() # 获取 网 络 接口 状态 
out [17] : 
{ "以 太 网 ' : snicstats(isup-False, duplex-«NicDuplex.NIC DUPLEX FULL: 2», speed=0, 
mtu=1500), 
"蓝牙 网 络 连接 ' : snicstats(isup-False, duplex-«NicDuplex.NIC DUPLEX FULL: 2», 
speed=3, mtu=1500), 
"以 太 网 2': snicstats(isup-True, duplex=<NicDuplex.NIC DUPLEX FULL: 2>, 
speed=1000, mtu=1300), 
"VMware Network Adapter VMnetl': snicstats(isup=True, 
duplex=<NicDuplex.NIC DUPLEX FULL: 2>, speed=100, mtu=1500), 
"VMware Network Adapter VMnet8': snicstats(isup=True, 
duplex=<NicDuplex.NIC DUPLEX FULL: 2>, speed=100, mtu=1500), 
"Loopback Pseudo-Interface 1': snicstats (isup=True, 
duplex=<NicDuplex.NIC DUPLEX FULL: 2>, speed=1073, mtu=1500), 
'WLAN': snicstats(isup-True, duplex=<NicDuplex.NIC DUPLEX FULL: 2>, speed=87, 
mtu-1500), 
"本 地 连接 * 3': snicstats(isup-False, duplex-«NicDuplex.NIC DUPLEX FULL: 2», 
Speed-0, mtu-1500), 
"本 地 连接 * 8': snicstats(isup-False, duplex-«NicDuplex.NIC DUPLEX FULL: 2», 
speed=0, mtu-1472)] 
In[18]:psutil.net connections() # 获取 当前 网 络 连接 信息 
Out [18] : 
[sconn(fd--1, family=<AddressFamily.AF INET6: 23>, type=2, 
laddr-addr (ip-'fe80::b59c:a707:c281:37fa', port-61797), raddr-(), status-'NONE', 
pid-2600), 
sconn(fd--1, family-«AddressFamily.AF INET: 2>, type-1, 
laddr=addr (ip='127.0.0.1', port=8307), raddr-(), status-'LISTEN', pid-5152), 
sconn(fd--1, family-«AddressFamily.AF INET6: 23», type-2, 
laddr-addr (ip-'fe80::b59c:a707:c281:37fa', port-1900), raddr-(), status-'NONE', 
pid-2600), 


sconn (fd=-1, family-«AddressFamily.AF INET6: 23>, type-2, laddr-addr(ip-'::', 
port-500), raddr-(), status-'NONE', pid-4092), 
Sconn(fd--1, family-«AddressFamily.AF INET6: 23>, type-1l, laddr-addr(ip-'::', 


port-443), raddr-(), status-'LISTEN', pid-5152), 

sconn(fd--1, family=<AddressFamily.AF INET: 2>, type=2, 
laddr-addr(ip-'192.168.81.1', port=61803), raddr-(), status-'NONE', pid=2600), 
sconn(fd--1, family-«AddressFamily.AF INET: 2>, type=1, 
laddr-addr(ip-'192.168.81.1', port-139), raddr-(), status-'LISTEN', pid-4), 
sconn (fd=-1, family=<AddressFamily.AF INET6: 23>, type-1l, laddr-addr(ip-'::', 
port-49669), raddr-(), status-'LISTEN', pid-768), 

Sconn(fd--1, family-«AddressFamily.AF INET6: 23>, type=2, 

laddr-addr (ip-'fe80::6c20:f634:3e7a:52cb', port-2177), raddr-(), status-'NONE', 
pid-15584), 

sconn(fd--1, family-«AddressFamily.AF INET6: 23>, type=2, 

laddr-addr (ip-'fe80::6c20:f634:3e7a:52cb', port-1900), raddr-(), status-'NONE', 
pid-2600), 

sconn(fd--1, family-«AddressFamily.AF INET: 2>, type-l, 

laddr=addr (ip='192.168.0.188', port-64165), raddr-addr(ip-'114.215.171.69', 
port-443), status-'CLOSE WAIT', pid-3444), 

Sconn(fd--1, family-«AddressFamily.AF INET6: 23>, type-1, laddr=addr(ip='::', 
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port=49670), raddr-(), status-'LISTEN', pid=724), 
sconn(fd--1, family=<AddressFamily.AF INET: 2>, type=2, 
laddr=addr (ip-'192.168.0.188', port=137), raddr-(), status-'NONE', pid=4), 


sconn (fd=-1, family=<AddressFamily.AF INET6: 23>, type=2, laddr-addr(ip-': 


port=5353), raddr-(), status-'NONE', pid=2984), 

sconn (fd=-1, family=<AddressFamily.AF INET: 2>, type=1, 

laddr=addr (ip='192.168.0.188', port-65128), raddr=addr (ip='52.230.83.250', 
port-443), status-'ESTABLISHED', pid=4364), 


【示例 2-17】 获 取 进 程 信息 。 


In[32]: for pid in psutil.pids(): # 获 取 所 有 进程 的 pid 


print (pid,end-',") 


0,4,312,536, 636, 652, 724,736,768, 880, 888, 896, 964,1012, 448, 632,1084,1096,1116,11 
52,1188,1260,1364,1420,1440,1452,1616,1720,1728,1740,1752,1796,1832,1884,1892, 
1900, 1972, 2024, 2060, 2116, 2248, 2332, 2356, 2380, 2440, 2528, 2540, 2600..... 

In[33]: for proc in psutil.process iter(attrs-['pid', 'name', 'username']): 


if proc.info['name'].startswith('WeChat'): # 查 找 微 信 程 序 的 相关 信息 
print (proc.info) 


{'pid': 12476, 'name': 'WeChat.exe', 'username': 'XX\\xx'} 
('pid': 15420, 'name': 'WeChatWeb.exe', 'username': 'XX\\xx'} 


素 的 info 是 一 个 字典 , 通过 字典 可 以 获取 我 们 关心 的 信息 。 获 取 进 程 的 其 他 信息 如 CPU 占用 、 


前 面 使 用 psutil.process iter 获取 了 进程 相关 的 信息 ,返回 结果 是 一 个 可 进 代 对 象 ， 每 个 元 


内 存 占用 、 进 程 的 线程 数 等 ， 还 可 以 使 用 如 下 方式 : 


In 


Out 


35]: psutil.Process(12476).cpu times() 43H CPU 占用 


35]: pcputimes (user=80.390625, system=97.046875, children user=0.0, 


children system=0.0) 


In 


Out 


36]: psutil.Process(12476).memory info() # 获 取 内 存 占用 ，rss 就 是 实际 占用 的 内 存 


36]: pmem(rss=69345280, vms=105222144, num page faults=304706, 


peak wset=113065984, wset=69345280, peak paged pool=787272, paged pool=764312, 
peak nonpaged pool-75760, nonpaged pool-66192, pagefile-105222144, 
peak pagefile=121634816, private=105222144) 


In 


0 -) O O ^ QI9-Í| 


œ 
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37]: psutil.Process (12476) .num threads () # 获 取 线 程 数 


37]: 41 


38]: psutil.Process(12476).memory percent() # 获 取 内 存 占 比 


38]: 1.6528748173747048 


【示例 2-18】 下 面 是 几 种 常见 的 实用 方法 。 


import os 
import psutil 
import signal 


# 按 名 称 查找 进程 相关 信息 1 


def find procs by name (name): 


"Return a list of processes matching 'name'." 
ae 


for p in psutil.process iter(attrs-['name']): 


10 if p.info['name'] == name: 

11 ls.append (p) 

T2 return ls 

13 

14 

15 HAZ FC EHAIERHHIO GR. 2 

16 def find procs by name (name): 

17 "Return a list of processes matching 'name'." 

18 is = [] 

19 for p in psutil.process iter(attrs-["name", "exe", "cmdline"]): 
20 if name == p.info['name'] or \ 

21 p.info['exe'] and os.path.basename (p.info['exe']) == name or \ 
22 p.info['cmdline'] and p.info['cmdline'][0] == name: 
23 ls.append (p) 

24 return 1s 

25 

26 RRETH 

27 def kill proc tree(pid, sig=signal.SIGTERM, include parent=True, 
28 timeout-None, on terminate=None) : 

29 """Kill a process tree (including grandchildren) with signal 
30 "sig" and return a (gone, still alive) tuple. 

31 "on terminate", if specified, is a callabck function which is 
32 called as soon as a child terminates. 

33 "nn 

34 if pid == os.getpid(): 

35 raise RuntimeError("I refuse to kill myself") 

36 parent = psutil.Process (pid) 

37 children = parent.children(recursive=True) 

38 if include parent: 

39 children.append (parent) 

40 for p in children: 

41 p.send signal (sig) 

42 gone, alive - psutil.wait procs(children, timeout-timeout, 

43 callback-on terminate) 

44 return (gone, alive) 

45 

46 

47 pr ERE 

48 def reap children (timeout-3): 

49 "Tries hard to terminate and ultimately kill all the children of this 
process." 

50 def on terminate (proc): 

5T print ("process {} terminated with exit code ()".format (proc, 
proc.returncode)) 

52 

53 procs = psutil.Process().children() 

54 # send SIGTERM 

55 for p in procs: 

56 p.terminate () 

57 gone, alive = psutil.wait procs(procs, timeout=timeout, 
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callback=on terminate) 


58 if alive: 

59 # send SIGKILL 

60 for p in alive: 

61 print ("process {} survived SIGTERM; trying SIGKILL" $ p) 
62 p-kill() 

63 gone, alive = psutil.wait procs(alive, timeout=timeout, 
callback=on terminate) 

64 if alive: 

65 # give up 

66 for p in alive: 

67 print ("process () survived SIGKILL; giving up" $ p) 
68 


小 结 : 本 节 主 要 介绍 了 如 何 通过 psutil 库 获取 常见 的 系统 信息 和 进程 信息 ， 系 统 信 息 和 进 
程 相关 的 指标 非常 多 ， 具体 使 用 时 我 们 只 关心 自己 需要 监控 的 指标 即 可 , 深入 了 解 psutil 模块 
请 查阅 psutil 的 官方 文档 。 


之 .文件 系统 监控 


运 维 工 作 离 不 开 文 件 系统 的 监控 ， 如 某 个 目录 被 删除 ， 或 者 某 个 文件 被 修改 、 移 动 、 删 除 
时 需要 执行 一 定 的 操作 或 发 出 报警 。 当 然 , 读者 可 能 会 想到 使 用 循环 检查 文件 或 目录 的 信息 来 
满足 上 述 需 求 ， 也 不 是 不 可 以 , 但 这 不 是 一 个 最 好 的 方案 , 一 是 因为 循环 操作 会 不 停 地 执行 指 
令 太 耗 CPU， 二 是 不 够 实时 ， 循 环 操作 中 会 放 一 些 等 待 指令 ， 如 time.sleep(3) 来 减少 CPU 的 
消耗 ， 这 就 会 导致 监控 的 时 机 有 一 定 的 滞后 ， 不 够 实时 。 本 节 介绍 一 个 第 三 方 库 watchdog 来 
实现 文件 系统 监控 ， 其 原理 是 通过 操作 系统 的 事件 触发 的 ， 不 需要 循环 ， 也 不 需要 等 待 。 


E 文件 系统 空间 不 足 的 监控 请 参考 上 节 系统 信息 监控 中 磁盘 监控 的 部 分 。 | 


【示例 2-19] watchdog 用 来 监控 指定 目录 /文件 的 变化 ， 如 添加 删除 文件 或 目录 、 修 改 文 
件 内 容 、 重 命名 文件 或 目录 等 , 每 种 变化 都 会 产生 一 个 事件 , 且 有 一 个 特定 的 事件 类 与 之 对 应 ， 
然后 通过 事件 处 理 类 来 处 理 对 应 的 事件 , 怎么 样 处 理事 件 完全 可 以 自 定义 , 只 需 继 承 事件 处 理 
类 的 基 类 并 重 写 对 应 实例 方法 。 
1 from watchdog.observers import Observer 
2 from watchdog.events import * 


3 import time 
4 


class FileEventHandler (FileSystemEventHandler) : 


0 0-00 


def init (self): 
FileSystemEventHandler. init (self) 
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10 
11 
m 
13 
14 


def on moved (self, event): 
now = 七 ime .strftime ("$Y-$m-$d %H:%M:%S", time.localtime()) 
if event.is directory: 
print (£"{ now } 文件 夹 由 ( event.src path } 移动 至 


{ event.dest path }") 


15 
16 
17 
18 
T9 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
31 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 


else: 
print (£"{ now } 文件 由 { event.src path ) 移动 至 { event.dest path }") 


def on created(self, event): 
now = time.strftime("$Y-$m-$d %H:%M:%S", time.localtime()) 
if event.is directory: 
print (f"{ now } 文件 夹 { event.src path } 创建 ") 
else: 
print (f"{ now ) 文件 { event.src path } 创建 ") 


def on deleted (self, event): 
now = time.strftime ("%Y-%m-%d %H:%M:%S", time.localtime()) 
if event.is directory: 
print (f"{ now ) 文件 夹 { event.src path } 删除 ") 
else: 
print (f"{ now ) 文件 { event.src path } 删除 ") 


def on modified(self, event): 
now = time.strftime ("%Y-%m-%d %H:%M:%S", time.localtime()) 
if event.is directory: 
print (f"{ now } 文件 夹 { event.src path } 修改 ") 
else: 
print (f"{ now ) 文件 { event.src path } 修改 ") 


if name ==" main ": 
observer = Observer () 
path = r"d:\test" 
event handler = FileEventHandler () 
observer .schedule (event handler, path, True) #True 表示 递归 子 目 录 
print (f" 监 控 目 录 {path} ") 
observer.start () 
observer. join() 


运行 结果 如 下 : 


监控 目录 d:\test 


2018-06-05 :52 文件 夹 d:\test\diro 创建 

2018-06-05 :03 文件 d:\test\filel.txt 创建 

2018-06-05 :03 文件 d:\test\filel.txt 修改 

2018-06-05 :14 文件 夹 由 d:\test\dir0 移动 至 d:\test\dir3 


2018-06-05 22: 


:25 文件 由 d:\test\filel.txt 移动 至 d:\test\file2.txt 


2018-06-05 22:29:29 文件 d:\test\file2.txt 删除 


运 维 中 以 下 场景 十 分 适合 使 用 watchdog. 
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(1) 监控 文件 系统 中 文件 或 目录 的 增 、 删 、 改 情况 
(20 当 特 定 的 文件 被 创建 、 删 除 、 修 改 、 移 动 时 执行 相应 的 任务 


第 二 个 场景 在 后 续 的 小 节 中 会 有 具体 的 应 用 。 


2 e 4 执行 外 部 命令 subprocess 


subprocess 模块 是 Python 自 带 的 模块 , 无 须 再 另行 安装 , 它 主要 用 来 取代 一 些 旧 的 模块 或 
方法 ， 如 os.system、os.spawn*、os.popen*、commands.* 等 ， 因 此 如 果 需 要 使 用 Python 调用 外 
部 命令 或 任务 时 ， 则 优先 使 用 subprocess 模块 。 使 用 subprocess 模块 可 以 方便 地 执行 操作 系统 
支持 的 命令 ， 可 与 其 他 应 用 程序 结合 使 用 。 因 此 ，Python 也 常 被 称 为 胶水 语言 。 


2.4.1 
subprocess.run() 是 官方 推荐 使 用 的 方法 ， 几 乎 所 有 的 工作 都 可 以 由 它 来 完成 。 首 先 来 看 一 
下 函数 原型 : 


subprocess.run(args, *, stdin=None, input=None, stdout=None, stderr=None, 
shell=False, cwd=None, timeout=None, check=False, encoding=None, errors=None) 


该 函数 返回 一 个 CompletedProcess 类 (有 属性 传 入 参数 及 返回 值 ) 的 实例 ， 虽 然 该 函数 的 
参数 有 很 多 ， 但 是 我 们 只 需要 知道 几 个 常用 的 就 可 以 了 。 
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args 代表 需要 在 操作 系统 中 执行 的 命令 ， 可 以 是 字符 串 形 式 (要 求 shell=True ) ， 也 
可 以 是 列表 list 类 型 。 

* 代 表 可 变 参 数 ， 一 般 是 列 或 字典 形式 。 

stdin. stdout. stderr 指定 了 可 执行 程序 的 标准 输入 、 标 准 输出 、 标 准 错误 文件 句柄 。 
shell 代表 着 程序 是 否 需要 在 shell 上 执行 , 当 想 使 用 shell 的 特性 时 ,设置 shell=True , 
这 样 就 可 以 使 用 shell 指令 的 管道 、 文件 名 称 通配符 、 环 境 变 量 等 ,不 过 Python 也 提 
供 了 许多 类 shell 的 模块 ， 如 glob、fnmatch、os.walk()、os.path.expandvars()、 
os.path.expanduser() 和 shutil . 

check 如 果 check 设置 为 True， 就 检查 命令 的 返回 值 ， 当 返回 值 为 非 0 时 ， 将 抛 出 
CalledProcessError 异常 。 

timeout 设置 超时 时 间 ， 如 果 超 时 ， 则 强制 kill 掉 子 进程 。 


【示例 2-20】 下 面 举 例 说 明 。 


在 Linux 系统 中 如 果 我 们 执行 一 个 脚本 并 获取 它 的 返回 值 , 可 有 如 下 两 种 方法 如 图 2.12 
和 图 2.13 所 示 。 


import subprocess 
a-subprocess.run("ls -l /dev/null", shell=True) 
-rw-rw- 1 root root 1, 3 Apr 16 21:24 /dev/null 
a 

mpletedProcess(args l /dev/null', returncode=0) 


>>> a.args 
"Ls -l /dev/null' 
a.returncode 


图 2.12 ”获取 subprocess.run 返回 值 (方法 一 ) 


>>> import subpr 
> ubpr aS null" 
crw-rw-rw ，3 Ap /dev/nult 
> b 
Complet ess s , '/dev/null'], returne 
> b.arg 
. "U, '/dev/nult'] 
> b.returncode 


图 2.13 ”获取 subprocess.run 返回 值 (方法 二 ) 


如 果 要 捕获 脚本 的 输出 ， 可 以 按 如 图 2.14 所 示 的 做 法 。 
subprocess.run(['ls','-L', '/dev/null' } 


/dev/nul returncode=0, st ba, 21:24 /dev/nult\n') 


图 2.14 捕获 脚本 输出 
如 果 传 入 参数 check=True, “4 returncode 不 为 0 时 ,将 会 抛 出 subprocess.CalledProcessError 
异常 ;如果 传输 timeout 参数 ， 当 运行 时 间 超 过 timeout 时 就 会 抛 出 TimeoutExpired 异常 。 运 
行 结果 如 图 2.15 所 示 . 


上 面 的 例子 虽然 很 长 ， 但 是 为 了 说 明 超时 会 抛 出 TimeoutExpired 异常 ， 这 在 实际 工作 中 
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非常 有 用 ， 比 如 一 个 任务 不 确定 什么 时 间 完 成 ， 可 以 设置 一 个 超时 时 间 ， 如 果 超 时 仍 未 完成 ， 
可 以 通过 代码 控制 超时 重新 运行 。 如 果 超 时 重 试 3 次 不 成 功 ， 就 让 程序 报错 退出 。 


2.4.» Popen 类 
先 来 看 一 下 Popen 类 的 构造 函数 。 


class subprocess.Popen( args, 
bufsize=0, 
executable=None, 
stdin=None, 
stdout=None, 
stderr=None, 
preexec fn=None, 
close fds=False, 
shell=False, 
cwd=None, 
env=None, 
universal newlines=False, 
startupinfo=None, 
creationflags=0) 


参数 的 说 明 可 参见 表 2-5. 


表 2-5 Popen 类 构造 函数 的 参数 


字符 串 或 列表 
0 无 缓冲 

1 行 缓冲 
其 他 正 值 ， 缓 冲 区 大 小 

负 值 ， 采 用 默认 系统 缓冲 〈 一 般 是 全 缓冲 ) 
executable ，args 字符 串 或 列表 第 一 项 表示 程序 名 
stdin None 没有 任何 重 定向 ， 继 承 父 进程 

stdout PIPE 创建 管道 

stderr 文件 对 象 

文件 描述 符 〈 整 数 ) 

stderr 还 可 以 设置 为 STDOUT 

preexec fn 钩子 函数 ， 在 fork 和 exec 之 间 执行 。 

close_fds unix 下 执行 新 进程 前 是 否 关闭 0/1/2 之 外 的 文件 
windows 下 不 继承 还 是 继承 父 进程 的 文件 描述 符 
shell 为 真 的 话 

unix 下 相当 于 args 前 面 添加 了 "/bin/sh" "-c" 
window 下 ， 相 当 于 添加 "cmd.exe /c" 


bufsize 


cwd 设置 工作 目录 

env 设置 环境 变量 

universal_newlines 各 种 换行 符 统一 处 理 成 "n! 

startupinfo window 下 传递 给 CreateProcess 的 结构 体 

creationflags windows 下 ， 传 递 CREATE NEW CONSOLE 创建 自己 的 控制 台 窗 口 
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使 用 方法 如 下 : 


subprocess.Popen(["gedit","abc.txt"]) 
subprocess.Popen ("gedit abc.txt") 


这 两 个 方法 , 后 者 将 不 会 工作 。 因为 如 果 是 一 个 字符 串 的 话 , 就 必须 是 程序 的 路 径 才 可 以 。 
(考虑 unix 的 api 函数 exec， 接 受 的 是 字符 串 列表 ) 。 但 是 下 面 的 可 以 工作 : 
subprocess.Popen("gedit abc.txt", shell=True) 
这 是 因为 它 相当 于 : 
subprocess.Popen(["/bin/sh", "-c", "gedit abc.txt"]) 
Popen 类 的 对 象 还 有 其 他 实用 方法 ， 参 见 表 2-6。 
表 2-6 Popen 类 对 象 的 方法 


名 称 功能 
poll 检查 是 否 结束 ， 设 置 返回 值 
wait() 等 待 结束 ， 设 置 返回 值 
communicate 参数 是 标准 输入 ， 返 回 标准 输出 和 标准 出 错 
send_signal( 发 送信 号 (主要 在 unix 下 有 用 ) 
terminate 终止 进程 ，unix 对 应 的 SIGTERM 信号 ，windows 下 调用 api 函数 TerminateProcess() 
kill0 杀 死 进程 (unix 对 应 SIGKILL 信号 ) windows 下 同上 
stdin 参数 中 指定 PIPE 时 ， 有 用 
stdout 
stderr 
pid 进程 id 
returncode 进程 返回 值 
243 其 他 方法 


(1) subprocess.call(*popenargs, **kwargs): call 方法 调用 Popen() 执行 程序 ， 并 等 待 它 完 
成 。 

(2) subprocess. check call(*popenargs, **kwargs) : 调用 前 面 的 call0， 如 果 返 回 值 非 零 ， 
则 抛 出 异常 。 


(3) subprocess. check_output (*popenargs, **kwargs): 调用 Popen() 执行 程序 ， 并 返回 其 
标准 输出 。 


日 志 记 录 


日 志 收 集 与 分 析 是 运 维 工 作 中 十 分 重要 的 内 容 , 要 分 析 日 志 , 最 好 先知 道 日 志 是 如 何 生 成 
的 ， 这 样 才能 知己 知 彼 ， 分 析 日 志 才 更 有 成 效 。 本 节 将 介绍 如 何 通过 Python 的 标准 库 logging 
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模块 定制 自己 多 样 化 的 记录 日 志 需 求 。 


2.5.1 日 志 模 块 简介 


运 维 工 作 有 很 多 情况 需要 查 问题 、 解 决 bug, 而 查 问题 和 解决 bug 的 过 程 离 不 开 查看 日 志 ， 
我 们 编写 脚本 或 程序 时 总 是 需要 有 日 志 输出 ，Python 的 logging 模块 就 是 为 记录 日 志 使 用 的 ， 
而 且 是 线程 安全 的 ， 意 味 着 使 用 它 完全 不 用 担心 因 日 志 模块 的 异常 导致 程序 崩溃 。 


【示例 2-21】 首 先 看 一 下 日 志 模块 的 第 一 个 例子 。 简 单 将 日 志 打印 到 屏幕 : 


import logging 

logging.debug('debug message') 
logging.info('info message') 
logging.warning('warning message') 
logging.error('error message') 
logging.critical('critical message") 


输出 为 : 


WARNING: root:warning message 
ERROR: root :error message 
CRITICAL:root:critical message 


Oo OU 5 QItn^ÍÓ 


ERROR > WARNING > INFO > DEBUG ) 。 默 认 的 日 志 格式 : 日 志 级 别 为 Logger， 名 称 为 用 


默认 情况 下 ，Python 的 logging 模块 将 日 志 打印 到 标准 输出 中 ， 而 且 只 显示 大 于 等 于 
WARNING 级 别 的 日 志 , 这 说 明 默 认 的 日 志 级 别 设置 为 WARNING( 日 志 级 别 等 级 CRITICAL > 


户 输出 消息 。 
各 日 志 级 别 代表 的 含义 如 下 。 


@ DEBUG: 调试 时 的 信息 打印 。 

INFO: 正常 的 日 志 信息 记录 。 

WARNING: 发 生 了 警告 信息 ， 但 程序 仍 能 正常 工作 。 
ERROR: 发 生 了 错误 ， 部 分 功能 已 不 正常 。 
CRITICAL: 发 生 严 重 错误 ,程序 可 能 已 崩溃 。 


上 面 的 例子 是 非常 简单 的 , 还 不 足以 显示 logging 模块 的 强大 ,因为 我 们 使 用 print 函数 也 


可 以 实现 以 上 功能 。 下 面 来 看 第 二 个 例子 。 
【示例 2-22] 将 日 志 信息 记录 至 文件 (文件 名 : Ix_logl.py)。 


import logging 
logging.basicConfig(filename-'./lx logl.log') 
logging.debug('debug message") 
logging.info('info message") 
logging.warning('warning message") 
logging.error('error message') 
logging.critical('critical message') 


YAURWNH 
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执行 以 上 代码 后 发 现 , 在 当前 目录 多 了 一 个 文件 Ix logllog. 文件 内 容 与 第 一 个 例子 的 输 
出 是 一 致 的 。 多 次 执行 lx_logl.py 发 现 log 文件 的 内 容 变 多 了 ， 说 明 默 认 的 写 log 文件 的 方式 
是 追加 。 


2.5.2 logging 模块 的 配置 与 使 用 
我 们 可 以 通过 logging 模块 的 配置 改变 log 文件 的 写 入 方式 、 日 志 级 别 、 时 间 戳 等 信息 。 
例如 下 面 的 配置 : 


logging.basicConfig (level=logging .DEBUG, # 设 置 日 志 的 级 别 
format-'$(asctime)s %(filename)s[line:%(lineno)d] $(levelname)s %(message)s', 


# 日 志 的 格式 


datefmt-' %Y-%m-%d %H:%M:%S', # 时 间 格 式 
filename-'./lx logl.log', HEEE 
filemode='w') # 指 定 写 入 方式 


可 见 在 logging.basicConfig() 函 数 中 可 通过 具体 参数 来 更 改 logging 模块 的 默认 行为 。 


€ filename: 用 指定 的 文件 名 创建 FiledHandler， 这 样 日 志 会 被 存储 在 指定 的 文件 中 。 

€ filemode: 文件 打开 方式 ， 在 指定 了 filename 时 使 用 这 个 参数 ， 默 认 值 为 a， 还 可 指 
ZAW 

format: 指定 handler 使 用 的 日 志 显示 格式 。 

datefmt: 指定 日 期 时 间 格式 。 

level: 设置 rootlogger 的 日 志 级 别 。 

stream: 用 指定 的 stream 创建 StreamHandler。 可 以 指定 输出 到 sys.stderr,sys.stdout 或 
者 文件 ， 默 认为 sys.stderr。 若 同时 列 出 了 filename 和 stream 两 个 参数 ， 则 stream Å 
数 会 被 忽略 。 

format 参数 中 可 能 用 到 的 格式 化 串 如 下 。 

%(name)s Logger 的 名 字 。 

%(levelno)s 数字 形式 的 日 志 级 别 。 

%(levelname)s 文本 形式 的 日 志 级 别 。 

%(pathname)s 调用 日 志 输出 函数 的 模块 的 完整 路 径 名 ， 可 能 没有 。 

%(filename)s 调用 日 志 输 出 函数 的 模块 的 文件 名 。 

%(module)s 调用 日 志 输出 函数 的 模块 名 。 

%(funcName)s 调用 日 志 输 出 函数 的 函数 名 。 

%(lineno)d 调用 日 志 输 出 函数 的 语句 所 在 的 代码 行 。 

%(created)f 当前 时 间 ， 用 UNIX 标准 表示 时 间 的 浮 点 数 。 

%(relativeCreated)d 输出 日 志 信 息 时 ， 自 Logger 创建 以 来 的 毫秒 数 。 

%(asctime)s 字符 串 形 式 的 当前 时 间 。 默 认 格式 是 “2013-07-08 16:49:45,896" , i$ 
后 面 的 是 毫秒 。 

e %(thread)d 线程 ID， 可 能 没有 。 
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€ %(threadName)s 线程 名 ， 可 能 没有 。 
€ %(process)d 进程 ID， 可 能 没有 。 
€ %(message)s 用 户 输 出 的 消息 。 


【示例 2-23】 例 如 以 下 代码 。 


1 import logging 
2 logging.basicConfig( 


3 level-logging.DEBUG, 

4 format-"$ (asctime)s % (filename) s[line:%(lineno)d] $(levelname)s % (message)s", 
# 日 志 的 格式 

5 datefmt-" %$Y-%m-%d $H:*M:$S", # 时 间 格 式 

6 filename="./1x logl.log", # 指定 文件 位 置 

7 filemode="w", 


8 ) 

9 logging.debug ("debug message") 

10 logging.info("info message") 

11 logging.warning("warning message") 
12 logging.error("error message") 

13 logging.critical("critical message") 


运行 代码 后 我 们 会 看 到 Ix. logl.py 文件 的 内 容 如 下 : 
2018-06-07 21:09:51 1x logl.py[line:9] DEBUG debug message 
2018-06-07 21:09:51 1x logl.py[line:10] INFO info message 
2018-06-07 21:09:51 1x logl.py[line:11] WARNING warning message 
2018-06-07 21:09:51 1x logl.py[line:12] ERROR error message 
2018-06-07 21:09:51 1x logl.py[line:13] CRITICAL critical message 
这 样 的 配置 已 基本 满足 我 们 写 一 些小 程序 或 Python 脚本 的 日 志 需 求 。 然 而 这 还 不 够 体现 
logging 模块 的 强大 ， 毕 竟 以 上 功能 通过 自 定义 一 个 函数 也 可 以 方便 实现 。 下 面 先 介绍 几 个 概 
念 以 及 它们 之 间 的 关系 图 。 


€ logger: 记录 器 ， 应 用 程序 代码 能 直接 使 用 的 接口 。 

€ handler: 处 理 器 ， 将 (记录 器 产生 的 ) 日 志 记录 发 送 至 合适 的 目的 地 。 
€ filter: 过 滤器 ， 提 供 了 更 好 的 粒度 控制 ， 可 以 决定 输出 哪些 日 志 记录 。 
€ formatter: 格式 化 器 ， 指 明了 最 终 输 出 中 日 志 记录 的 布局 。 


日 志 事件 信息 在 记录 器 (logger)、 处 理 器 (handler)、 过 滤器 (filter) 、 格 式 化 器 (formatter) 
之 间 通 过 一 个 日 志 记录 实例 来 传递 。 通 过 调用 记录 器 实例 的 方法 来 记录 日 志 , 每 一 个 记录 器 实 
例 都 有 一 个 名 字 ， 名 字 相 当 于 其 命名 空间 ， 是 一 个 树 状 结构 。 例 如 ， 一 个 记录 器 叫 scan， 记 
录 器 scan.tex、scan.html、scan.pdf 的 父 节 点 。 记 录 器 的 名 称 。 可 以 任意 取 , 但 一 个 比较 好 的 实 
践 是 通过 下 面 的 方式 来 命名 一 个 记录 器 。 


logger = logging.getLogger( name ) 


上 面 这 条 语句 意味 着 记录 器 的 名 字 会 通过 搜索 包 的 层级 来 获 致 ， 根 记录 器 叫 root logger. 
记录 器 通过 debug(). info). warning(). error()fil critical() 方 法 记录 相应 级 别 的 日 志 ， 根 记录 器 
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也 一 样 。 

根 记录 器 root logger 输出 的 名 称 是 root。 当 然 ， 日 志 的 输出 位 置 可 能 是 不 同 的 ，logging 
模块 支持 将 日 志 信息 输出 到 终端 、 文 件 、HITP GET/POST 请 求 、 邮 件 、 网 络 sockets、 队 列 或 
操作 系统 级 的 日 志 等 。 日 志 的 输出 位 置 在 处 理 器 handler 类 中 进行 配置 ， 如 果 内 建 的 hangler 
类 无 法 满足 需求 ， 则 可 以 自 定 义 hander 类 来 实现 自己 特殊 的 需求 。 默 认 情况 下 ， 日 志 的 输出 
位 置 为 终端 (标准 错误 输出 ) ， 可 以 通过 logging 模块 的 basicConfig() 方 法 指定 一 个 具体 的 位 
置 来 输出 日 志 ， 如 终端 或 文件 。 

logger 和 hander 的 工作 流程 如 图 2.16 所 示 。 


Logging call in user i 
code LogRecord passed to 
dee og n eg i m 
logger.infot...) | 8 m 
enabled jier enabled 


a filter att H 
; i € ) 
to logger reject the. H Emit (includes formatting) 
L- 


Pass to 
handlers of 上 -一 ---------- 一 --------- 一 ----------------- 一 ----- 一 ---------- 一 --- 一 -2 
current logger 
Set current $ propagate true for No 
logger? 


图 2.16 logging 模块 的 工作 流程 
现在 让 我 们 从 整体 到 局 部 来 说 明 logger 的 日 志 记 录 过 程 。 
第 一 步 : 获取 logger 的 名 称 。 
logger = logging.getLogger('logger name’) # 这 里 的 logger name 是 自己 定义 的 
第 二 步 : 配置 logger。 
1) 配置 该 logger 的 输出 级 别 ， 如 logger.setLevel(loging.INFO). 
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2) 添加 该 logger 的 输出 位 置 ， 即 logger 的 handler. logger.addHandler(ch). iX H 


E ch 是 我 


们 自 定义 的 handler， 如 ch=logging StreamHandler, 即 输 出 到 终端 , 我 们 可 以 添加 多 个 handler, 
一 次 性 将 日 志 输 出 到 不 同 的 位 置 。 日志 的 输出 格式 是 在 handler 中 进行 配置 ， 如 
ch.setFormatter(formatter) , formatter 也 我 们 自 定 义 的 ， 如 formatter = 
logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s")。 不 同 的 hander 可 以 
配置 不 同 的 格式 化 器 ， 可 以 实现 不 同 的 输出 位 置 ， 不 同 的 输出 格式 ， 完 全 可 能 灵活 配置 。 


第 三 步 : 在 应 用 程序 中 记录 日 志 。 


logger.debug('debug message') 
logger.info('info message") 
logger.warn('warn message') 
logger.error('error message') 
logger.critical('critical message’) 


OBIYRHBWNE 


o 


【示例 2-24】 将 日 志 信 息 显示 在 终端 的 同时 也 在 文件 中 记录 (lx_log2py) 。 


# +- coding: utf-6 =#= 
import logging 


# 创建 logger, 其 名 称 为 simple example， 名 称 为 任意 ， 也 可 为 空 
logger = logging.getLogger("simple example") 
# 打印 logger 的 名 称 
print (logger.name) 
# LH logger 的 日 志 级 别 
logger.setLevel (logging. INFO) 


# 创建 两 个 handler， 一 个 负责 将 日 志 输出 到 终端 ， 一 个 负责 输出 到 文件 ， 并 分 别 设置 它们 的 日 志 级 


ch = logging.StreamHandler () 
ch.setLevel (logging. DEBUG) 


fh = logging.FileHandler(filename-"simple.log", mode="a", encoding-"utf-8") 


fh.setLevel (logging .WARNING) 
# 创建 一 个 格式 化 器 ， 可 以 创建 不 同 的 格式 化 器 用 于 不 同 的 handler， 这 里 我 们 使 用 一 个 


formatter = logging.Formatter("$(asctime)s - $(name)s - $(levelname)s 
- $(message)s") 


+ WEP handler 的 格式 化 器 
ch.setFormatter (formatter) 
fh.setFormatter (formatter) 
# A logger 添加 两 个 handler 
logger.addHandler (ch) 
logger.addHandler (fh) 


+ 在 程序 中 记录 日 志 

logger.debug ("debug message") 
logger.info("info message") 
logger.warn ("warn message") 
logger .error ("error message") 
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32 logger.critical("critical message") 


在 以 上 程序 中 我 们 设置 了 logger 的 日 志 级 别 为 INFO, handler ch H H ERIA DEBUG, 
handler fh 的 日 志 级 别 为 WARNING， 这 样 做 是 为 了 解释 它们 之 前 的 优先 级 。 

handler 的 日 志 级 别 以 logger 的 日 志 级 为 基础 ，logger 的 日 志 级 别 为 INFO， 低 于 INFO 级 
别 的 (如 DEBUG) 均 不 会 在 handler 中 出 现 。handler 中 的 日 志 级 别 如 果 高 于 logger， 则 只 显 
示 更 高 级 别 的 日 志 信 息 , 如 fh 应 该 只 显示 WARNING 及 以 上 的 日 志 信 息 ; handler 中 的 日 志 级 
别 如 果 低 于 或 等 于 logger 的 日 志 级 别 ， 则 显示 logger 的 日 志 级 别 及 以 上 信息 ， 如 ch 应 该 显示 
INFO 及 以 上 的 日 志 信 息 。 

下 面 运行 程序 进行 验证 ， 执行 python Ix log2.py 得 到 如 下 结果 。 
1x log2 
2018-06-12 22:18:10,378 - 1x log2 - INFO - info message 
2018-06-12 22:18:10,379 - lx log2 - WARNING - warn message 
2018-06-12 22:18:10,379 - 1x log2 - ERROR - error message 
2018-06-12 22:18:10,380 - 1x log2 - CRITICAL - critical message 

查看 lx_log2.log 文件 ， 内 容 如 下 : 


2018-06-12 22:18:10,379 - 1x log2 - WARNING - warn message 
2018-06-12 22:18:10,379 - 1x log2 - ERROR - error message 
2018-06-12 22:18:10,380 - 1x log2 - CRITICAL - critical message 
从 运行 结果 来 看 ， 符 合 我 们 的 预期 。 除 了 StreamHandler 和 FileHandler 4b, logging 模块 
还 提供 了 其 他 更 为 实用 的 Handler 子 类 ， 它 们 都 继承 在 Handler 基 类 ， 如 下 所 示 。 


€  BaseRotatingHandler: 是 循环 日 志 处 理 器 的 基 类 ， 不 能 直接 被 实例 化 ， 可 使 用 
RotatingFileHandler 和 TimedRotatingFileHandler。 

€  RotatingFileHandler: 将 日 志文 件 记 录 至 磁盘 文件 ， 可 以 设置 每 个 日 志文 件 的 最 大 占 

空间 。 

€ TimedRotatingFileHandler : 将 日 志文 件 记录 至 磁盘 文件 ， 按 固定 的 时 间 间 隔 来 循环 

记录 日 志 。 

SocketHandler: 可 以 将 日 志 信息 发 送 到 TCP/IP 套 接 字 。 

DatagramHandler: 可 以 将 日 志 信息 发 送 到 UDP REF. 

SMTPHandler: 可 以 将 日 志文 件 发 送 至 邮箱 。 

SysLogHandler: 系统 日 志 处 理 器 ， 可 以 将 日 志文 件 发 送 至 UNIX 系统 日 志 ， 也 可 以 

是 一 个 远程 机 器 。 

€ NTEventLogHandler: Windows 系统 事件 日 志 处 理 器 ,可 以 将 日 志文 件 发 送 到 Windows 
系统 事件 日 志 。 

© MemoryHandler: MemoryHandler 实例 向 内 存 中 的 缓冲 区 发 送 消息 ， 只 要 满足 特定 的 
条 件 ， 缓 冲 区 就 会 被 刷新 。 

© HTTPHandler: 使 用 GET & POST 方法 向 HTTP 服务 器 发 送 消息 。 

€  WatchedFileHandler: WatchedFileHandler 实例 监视 它们 登录 到 的 文件 。 如 果 文 件 发 生 
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更 改 ， 则 使 用 文件 名 关闭 并 重新 打开 。 这 个 处 理 器 只 适用 于 类 unix 4%, Windows 
不 支持 使 用 的 底层 机 制 。 

€  QueueHandler: QueueHandler 实例 向 队列 发 送 消息 , 比如 在 队列 或 多 处 理 模块 中 实现 
的 消息 。 

€ NullHandler: NullHandler 实例 不 使 用 错误 消息 。 库 开发 人 员 使 用 日 志 记 录 ， 但 希望 
避免 在 库 用 户 未 配置 日 志 记录 时 显示 “日 志 记录 器 XXX 无 法 找到 任何 处 理 程序 ” 消 
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【示例 2-25】 日 志 的 配置 信息 也 可 以 来 源 于 配置 文件 (lx_log3.py〉。 代 码 如 下 : 


import logging 
import logging.config 


logging.config.fileConfig('logging.conf') 


+ 创建 一 个 logger 
logger = logging.getLogger('simpleExample') 


# 日 志 记录 

logger.debug('debug message') 
logger.info('info message") 
logger.warn('warn message') 
logger.error('error message') 
logger.critical('critical message') 


下 面 是 配置 文件 的 信息 logging.conf. 


[loggers] 
keys=root, simpleExample 


[handlers] 
keys-consoleHandler 


[formatters] 
keys-simpleFormatter 


[logger root] 
level-DEBUG 
handlers-consoleHandler 


[logger simpleExample] 
level-DEBUG 
handlers-consoleHandler 
qualname-simpleExample 
propagate-0 


[handler consoleHandler] 
class-StreamHandler 
level-DEBUG 
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23 formatter=simpleFormatter 

24 args=(sys.stdout,) 

25 

26 [formatter simpleFormatter] 

27 format-$(asctime)s - $(name)s - %(levelname)s - %(message)s 
28 datefmt-$Y-$m-$d %H:%M:%S 


上 面 几 种 常用 的 方法 已 经 基本 满足 我 们 的 需求 ， 如 需要 更 为 细致 的 了 解 ， 可 参考 logging 
模块 的 官方 文档 。 


£ 


^ ”搭建 FTP 服务 器 与 客户 端 

熟悉 FTP 的 读者 可 能 会 觉得 这 个 太 简 单 了 ， 直 接 在 网 上 下 载 软件 安装 运行 就 可 以 了 ， 客 
户 端 和 服务 器 都 有 , 但 是 只 能 满足 一 些 简单 的 工作 需求 。 如果 我 们 通过 写 Python 代码 搭建 FTP 
服务 器 和 客户 端 ， 就 能 实现 一 些 更 为 精细 化 的 控制 ， 如 精细 的 访问 权限 配置 、 详 细 的 日 志 记录 
等 ， 根 据 工作 经 验 ，Python 搭建 FTP 服务 器 也 非常 简单 ， 而 且 更 为 稳定 ， 下 面 就 让 我 们 一 起 
来 学 习 吧 。 


2.6.1 搭建 FTP 服务 器 


FTP (File Transfer Protocol， 文 件 传输 协议 ) 运行 在 TCP 协议 上 ， 使 用 两 个 端口 ， 即 数据 
端口 和 命令 端口 ， 也 称 控制 端口 。 默 认 情 况 下 ，20 是 数据 端口 ，21 是 命令 端口 。 
FIP 有 两 种 传输 模式 ， 主动 模式 和 被 动 模式 。 


(1) 主动 模式 : 客户 端 首 先 从 任意 的 非特 殊 端 口 n KF 1023 的 端口 ， 也 是 客户 端的 
命令 端口 ) 连接 FTP 服务 器 的 命令 端口 (默认 是 21) ， 向 服务 发 出 命令 PORT nt1， 告 诉 服 
务 器 自己 使 用 n+l 端口 作为 数据 端口 进行 数据 传输 , 然后 在 ntl 端口 监听 。 服务 器 收 到 PORT 
nH 后 向 客户 端 返回 一 个 "ACK’”, 然后 服务 器 从 它 自己 的 数据 端口 (20〉 到 客户 端 先 前 指定 的 
数据 端口 (nl 端口 ) 的 连接 ， 最 后 客户 端 向 服务 器 返回 一 个 'ACK'， 过 程 结束 ， 如 图 2.17 所 


Ro 


1. 客户 端 发 送 PORT 1026 


2. 服务 器 返回 ACK 


4. 返回 ACK 


图 2.17 ftp 的 主动 模式 
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(2) 被 动 模式 : 为 了 解决 服务 器 发 起 到 客户 的 连接 问题 ， 人 们 开发 了 被 动 FTP， 或 者 叫 
作 PASV， 当 客户 端 通知 服务 器 处 于 被 动 模式 时 才 启 用 。 在 被 动 方式 FTP 中 ， 命 令 连接 和 数 
据 连接 都 由 客户 端 发 起 。 当 开启 一 个 FTP 连接 时 , 客户 端 打开 两 个 任意 的 非特 权 本 地 端口 (大 
于 1023) 。 第 一 个 端口 连接 服务 器 的 21 端口 ， 但 与 主动 方式 的 FTP 不 同 ， 客 户 端 不 会 提交 
PORT 命令 并 允许 服务 器 来 回 连接 数据 端口 , 而 是 提交 PASV 命令 。 这样 做 的 结果 是 服务 器 会 
开启 一 个 任意 的 非特 权 端口 ,并 发 送 PORT P 命令 给 客户 端 , 然后 客户 端 发 起 从 本 地 端口 N+1 
到 服务 器 的 端口 P 的 连接 用 来 传送 数据 ， 如 图 2.18 所 示 。 


1. 客户 端 发 送 PSAV 


2. 服务 器 返回 随机 端口 2024 


图 2.18 ftp 的 被 动 模式 


简单 总 结 : 主动 方式 对 FTP 服务 器 的 管理 有 利 ， 但 对 客户 端的 管理 不 利 。 因 为 FTP 服务 
器 企图 与 客户 端的 高 位 随机 端口 建立 连接 ,而 这 个 端口 很 有 可 能 被 客户 端的 防火 墙 阻塞 掉 。 被 
动 方式 对 FTP 客户 端的 管理 有 利 ， 但 对 服务 器 端的 管理 不 利 。 因 为 客户 端 要 与 服务 器 端 建立 
两 个 连接 , 其 中 一 个 连 到 一 个 高 位 随机 端口 ,而 这 个 端口 很 有 可 能 被 服务 器 端的 防火 墙 阻塞 掉 。 
使 用 Python 搭建 一 个 FTP 服务 器 需要 pyftpdlib 模块 ， 安 装 非常 简单 。 执 行 以 下 命令 进行 
安装 : 
pip install pyftpdlib 


(D 快速 搭建 一 个 简单 的 FTP 服务 器 。 执 行 : 
python -m pyftpdlib -p 21 


即 可 在 执行 命令 所 在 的 目录 下 建立 一 个 端口 为 21 的 供 下 载 文件 的 FTP 服务 器 ,注意 Linux 
系统 需要 root 用 户 才能 使 用 默认 端口 21，windows 系统 中 目录 文件 名 可 能 是 乱码 ， 原 因 是 
pyftpdlib 内 部 使 用 utf8， 而 windows 使 用 gbk， 参 照 下 面 的 步骤 可 解决 windows 系统 的 乱码 问 
题 。 

首先 ， 找 到 pyftpdlib 源 文件 所 在 的 目录 。 
>>> import pyftpdlib 
>>> pyftpdlib. path 
['cC:\\Users\\xx\\projectA_env\\lib\\site-packages\\pyftpdlib"] 

其 次 , 在 目录 pyfipdlib 源 文件 所 在 的 目录 找到 文件 filesystems.py 和 handlers.py， 先 备份 。 
再 次 ， 打 开 filesystems.py ， 找 到 
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yield line.encode('utf8', self.cmd channel.unicode errors) 


共有 两 处 ， 修 改 mtfg 为 'gbk'， 保 存 并 退出 。 
打开 handlerspy， 找 到 


return bytes.decode('utf8', self.unicode errors) 


修改 utf8 为 gbk， 保 存 并 退出 。 
最 后 ， 验 证 乱码 已 解决 。 


(2) 搭建 一 个 具有 访问 权限 ， 可 配置 相关 信息 的 FTP 服务 器 (ftpserverpy) 。 


from pyftpdlib.authorizers import DummyAuthorizer 

from pyftpdlib.handlers import FTPHandler, ThrottledDTPHandler 
from pyftpdlib.servers import FTPServer 

from pyftpdlib.log import LogFormatter 

import logging 


ce 0 0450QIl)mP-P 


# 记 录 日 志 ， 默 认 情况 下 日 志 仅 输出 到 屏幕 〈 终 端 ) ， 这 里 既 输出 到 屏幕 又 输出 到 文件 ， 方 便 日 志 查 看 
9 logger = logging.getLogger () 

10 logger.setLevel (logging. INFO) 

11 ch = logging.StreamHandler () 

12 fh = logging.FileHandler(filename-'myftpserver.log',encoding-'utf-8') # 默 认 
的 方式 是 追加 到 文件 

13 ch.setFormatter (LogFormatter () ) 

14 fh.setFormatter (LogFormatter () ) 

15 logger.addHandler(ch) # 将 日 志 输出 至 屏幕 

16 logger.addHandler(fh) # 将 日 志 输 出 至 文件 

17 

18 

19 + 实例 化 虚拟 用 户 ， 这 是 FTP 验证 首要 条 件 

20 authorizer = DummyAuthorizer() 

21 d 添加 用 户 权 限 和 路 径 ， 括 号 内 的 参数 是 (用 户 名 、 密码 、 用 户 目录 、 权限 ) ,可 以 为 不 同 的 用 户 添加 
不 同 的 目录 和 权限 

22 authorizer.add user("user", "12345", "d:/", perm="elradfmw") 
23 + 添加 匿名 用 户 ， 只 需要 路 径 

24 authorizer.add anonymous ("d:/") 

25 

26 # 初始 化 ftp 句柄 

27 handler - FTPHandler 

28 handler.authorizer - authorizer 

29 

30 ， 间 添 加 被 动 端口 范围 

31 handler.passive ports = range(2000, 2333) 

32 

33 + 下 载 上 传 速度 设置 

34 dtp handler = ThrottledDTPHandler 

35 dtp handler.read limit = 300 * 1024 #300kb/s 

36 dtp handler.write limit = 300 * 1024 #300kb/s 

37 handler.dtp handler - dtp handler 
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+ 监听 ip 和 端口 ,Linux 里 需要 root 用 户 才能 使 用 21 端口 
server = FTPServer(("0.0.0.0", 21), handler) 


# 最 大 连接 数 
server.max cons = 150 
server.max cons per ip = 15 


+ 开始 服务 ， 自 带 日 志 打印 信息 


server.serve forever() 


执行 python fipserver.py 得 到 如 图 2.19 所 示 的 结果 。 


图 2.19 运行 结果 


同时 该 目录 下 也 会 生成 一 个 myftpserverlog 文件 ， 文 件 内 容 与 屏幕 上 的 信息 
下 面 我 们 登录 该 FTP 并 列 出 目录 进行 测试 ， 


图 2.20 


对 应 服务 器 的 打印 信息 如 图 2.21 所 示 。 


客户 端 运行 结果 


如 图 2.20 所 示 。 


图 2.21 服务 端 运行 结果 


至 此 ， 一 个 FTP 服务 器 已 经 搭建 完成 ， 大 家 可 以 修改 ftpserver.py 来 满足 自己 的 需求 。 
在 此 附 上 用 户 权 限 的 代码 及 说 明 ， 参 见 表 2-7 和 表 2-8。 


表 2-7 读 权限 


e 改变 文件 目录 
1 
从 服务 器 接收 文件 


R28 写 权限 
代码 说 明 
a 文件 上 传 
d 删除 文件 
f 重 命名 


w 


M 文件 传输 模式 (通过 FTP 设置 文件 权限 ) 


m 创建 文件 
写 权 限 


2.6.2 ”编写 FTP 客户 端 程 序 


在 实际 应 用 中 可 能 经 常 访问 FTP 服务 器 来 上 传 或 下 载 文件 , Python 也 可 以 蔡 我 们 做 这 些 。 


【示例 2-28】 下 面 请 看 一 个 例子 〈ftpclient) 。 


-*- coding: utf-8 -*- 
!/usr/local/bin/python 
Time: 2018/6/18 22:23:14 
Description: 

File Name: ftpclients.py 


Se omi SE oce te 


from ftplib import FTP 

# 登 录 FTP 

ftp = FTP(host-'localhost',user-'user',passwd-'12345') 
10 # 设 置 编码 方式 ， 由 于 在 windows 系统 ， 设 置 编码 为 gbk 

11 ftp.encoding = 'gbk' 

12 # 切换 目录 

13 ftp.cwd('test') 

14 4 c EXER PEE 

15 ftp.retrlines('LIST') # ftp.dir() 

16 井下 载 文件 note.txt 


CO©DIYNDUOKRWNEH 
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17 ftp.retrbinary('RETR note.txt', open('note.txt', 'wb').write) 
18 £Lf&xft ftpserver.py 

19 ftp.storbinary('STOR ftpserver.py', open('ftpserver.py', 'rb')) 
20 RGA PMC EE 

21 for f in ftp.mlsd(path-'/test'): 

22 print(f) 


运行 结果 如 图 2.22 所 示 。 


FTP 客户 端 程序 的 编写 还 可 以 参照 官方 文档 ， 以 满足 个 性 化 的 需求 。 


邮件 提醒 


邮件 是 互联 网 上 应 用 非常 广泛 的 服务 ， 几 乎 所 有 的 编程 语言 都 支持 发 送 和 接收 电子 邮件 ， 
使 用 Python 发 送 邮件 和 接收 邮件 也 是 非常 简单 易学 的 。 现 在 几乎 每 个 人 的 手机 上 都 自 带 邮件 
客户 端 ， 多 数 邮箱 都 支持 短信 提醒 ,因此 , 在 运 维 场景 中 将 程序 报错 的 信息 发 送 到 相应 人 员 的 
邮箱 可 以 及 时 感知 程序 的 报错 ， 尽 早 处 理 从 而 避免 更 多 的 损失 。 当 然 ， 使 用 程序 发 送 邮件 还 有 
许多 应 用 场景 ， 如 网 站 的 密码 重 置 等 ， 在 此 不 再 一 一 列举 。 


2.7.1 发 送 邮件 

关于 如 何 写 代码 发 送 邮件 , 我 们 应 首先 想到 发 送 邮件 使 用 什么 协议 。 目 前 发 送 邮件 的 协议 
是 SMTP (Simple Mail Transfer Protocol， 简 单 邮件 传输 协议 ) ， 是 一 组 用 于 由 源 地 址 到 目的 
地 址 传送 邮件 的 规则 ， 由 它 来 控制 信件 的 中 转 方式 。 我 们 编写 代码 , 实际 上 就 是 将 待 发 送 的 消 
息 使 用 SMTP 协议 的 格式 进行 封装 ， 再 提交 SMTP 服务 器 进行 发 送 的 过 程 。 

Python 内 置 的 smtplib 提供 了 一 种 很 方便 的 途径 发 送 电子 邮件 ， 可 以 发 送 纯 文本 邮件 、 
HTML 邮件 及 带 附件 的 邮件 。 Python 对 SMTP 支持 有 smtplib 和 email 两 个 模块 ,email 负责 构 
造 邮 件 ，smtplib 负责 发 送 邮 件 。 

我 们 来 看 一 下 如 何 创 建 SMTP 对 象 。Python 创建 SMTP 对 象 语 法 如 下 : 
import smtplib 
smtpObj = smtplib.SMTP( [host [, port [, local hostname]]] ) 

参数 说 明 : 

© host: SMTP 服务 器 主机 ， 可 以 指定 主机 的 IP 地 址 或 域名 ， 是 可 选 参数 。 
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€ port: 如 果 提供 了 host 参数 ,就 需要 指定 SMTP 服务 使 用 的 端口 号 , 一 般 情 况 下 SMTP 


端口 号 为 25。 
e 


Python SMTP 对 象 使 用 sendmail 方法 发 送 邮 件 ， 其 语法 如 下 : 


local hostname: 如 果 SMTP 在 你 的 本 机 上 , 那么 只 需要 指定 服务 器 地 址 为 localhost 即 可 。 


SMTP.sendmail(from addr, to addrs, msg[, mail options, rcpt options]) 


参数 说 明 : 
€ from addr: 邮件 发 送 者 地 址 。 
© to addrs: 字符 串 列表 ， 邮 件 发 送 地 址 。 


@ msg: 发 送 消息 。 


第 三 个 参数 msg 是 字符 串 ， 表 示 邮 件 。 我 们 知道 邮件 一 般 由 标题 、 


ASA. CEA. BE 


件 内 容 、 附 件 等 组 成 ， 发 送 邮件 时 ， 要 注意 msg 的 格式 。 这 个 格式 就 是 SMTP 协议 中 定义 的 


格式 。 
【示例 2-29】 构 造 简单 的 文本 邮件 。 


from email.mime.text import MIMEText 
message = MIMEText ('Python 邮件 发 送 测试 .. .'， 'plain', 'utf-8') 


注意 构造 MIMEText 对 象 时 , 第 一 个 参数 就 是 邮件 正文 , 第 二 个 参数 是 MIME 的 subtype, 
传 入 plain， 最 终 的 MIME 就 是 text/plain'， 最 后 一 定 要 用 UTF-8 编码 保证 多 语言 兼容 性 。 
在 使 用 SMTP 发 送 邮件 之 前 ， 请 确保 所 用 邮箱 的 SMTP 服务 已 开启 ， 例 如 163 邮箱 ， 如 


图 2.23 所 示 。 


POP3/SMTP/IMAP 
iREIPOP3/SMTP/IMAP. 图 POPS/SMTPRESS 
IMAP/SMTPSRSS 


BUST: WORHUeUHUE TUR Sect mre pm 


iBEIPOP3/SMTP/IMAP. 


提示 


IMAPRES SE imap.163.com 


masm 


posia 
ERREEN (iOS. Android. Symbian) 


3%  POP3/SMTP/IMAPEES ERESSE 


图 2.23 SMTP 设置 方法 
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【示例 2-30】 下 面 使 用 Python 发 送 第 一 封 简单 的 邮件 Csendmaill.py) 。 


1 4 -*- coding: UTF-8 -*- 

2 

3 import smtplib 

4 from email.mime.text import MIMEText 
Si 

6 + 第 三 方 SMTP 服务 

7 mail host = "smtp.163.com" 4 设置 服务 器 
8 mail user = "你 的 邮箱 用 户 名 " # 用 户 名 

9 mail pass = "你 的 邮箱 密码 "” + 口令 

10 

11 


12 sender - "xxxx6163.com" 


13 receivers = ["yyyy@qq.com", "zzzz@wjrcb.com"] # 接收 邮件 ， 可 设置 为 gg 邮箱 或 其 他 


15 message = MIMEText ("这 是 正文 : 邮件 正文 ...... ", "plain", "utf-8") # 构造 正文 
16 message["From"] = sender # 发 件 人 ， 必 须 构 造 ， 也 可 以 使 用 Header 构造 

17 message["To"] = ";".join(receivers) # 收 件 人 列表 ， 不 是 必须 的 

18 message["Subject"] = "这 是 主题 : SMTP 邮件 测试 " 


19 

20 TEY: 

21 smtpObj = smtplib.SMTP() 

22 smtpObj.connect (mail host, 25) # 25 W SMTP 端口 号 

23 smtpObj.login(mail user, mail pass) 

24 smtpObj.sendmail(sender, receivers, message.as string()) 


25 print (" 发 送 成 功 ") 
26 except smtplib.SMTPException as e: 
27 print (f" 发 送 失 败 ,错误 原因 : (er) 


执行 以 上 程序 ， 屏 幕 上 显示 “发 送 成 功 ”的 信息 后 ， 即 可 看 到 收 件 箱 里 的 邮件 ， 如 图 
所 示 。 


这 是 主题 : SMTP 邮件 测试 
SOSA S 63.com 


1 间 : 2018 年 6 月 20 日 (星期 三 ) t 9:30 


so -——— 5 — EEESo000s 


图 2.24 运行 结果 


读者 可 能 会 问 ， 可 以 发 送 HTML 格式 的 邮件 吗 ? 当然 可 以 ， 构 造 正文 部 分 修改 如 下 : 


message = MIMEText ( 
"<html><body><h1> 这 是 正文 标题 </h1>N 
<p> 正 文 内 容 «a href="#"> 超 链接 </a>. . .</p>\ 
</body></htm1>', 
"html", 
"utf-8", 
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) 


OIRO BF WN HK 


FRRP hp pp HF © 
Op why Ph 


16 


17 
18 
19 
20 
2X 
22 
23 
24 
25 
26 


# 构造 正文 
执行 后 邮件 内 容 如 图 2.25 所 示 。 
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这 是 主题 : SMTP 邮件 测试 


45 


a -or 


这 是 正文 标 


正文 内 雁 Hite... 


图 2.25 运行 结果 
到 这 里 读者 可 能 会 问 ， 如 何 添加 附件 呢 ? 请 看 下 面 的 代码 : 


+ >- coding: ut£-80—*— 


import smtplib 

from email.mime.text import MIMEText 

from email.mime.multipart import MIMEMultipart 
from email.mime.image import MIMEImage 


from email.header import Header 


# 第 三 方 SMTP 服务 

mail host = "mail.wjrcb.com" 4 设置 服务 器 
mail user = "zhengzheng" 4 用 户 名 

mail pass = "WQZ22123" #04 


sender = "zhengzheng6wjrcb.com" 


receivers = ["somenzz@qq.com", "somezz@163.com"] # 接收 邮件 ， 可 设置 为 oo 邮箱 或 
其 他 邮箱 


message = MIMEMultipart () 


message["From"] = sender # 构造 发 件 人 ， 也 可 以 使 用 Header 构造 
message["To"] = ";".join(receivers) # 收 件 人 列表 不 是 必需 的 
message["Subject"] = "这 是 主题 : SMTP 邮件 测试 " 


邮件 正文 内 容 
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A 

28 message .attach (MIMEText ('<p> 这 是 正文 : 图 片 及 附件 发 送 测试 </P><p> 图 片 演示 : </p> 
<p><img src-"cid:imagel"»«/p»', 'html', 'utf-8')) 

29 

30 + 指定 图 片 为 当前 目录 

31 fp = open("1.jpg";, "rb") 


32 msgImage = MIMEImage (fp.read()) 

33 fp.close() 

34 

35 # EM ID, 在 HTML 文本 中 引用 

36 msgImage.add header ("Content-ID", "«imagel»") 


37 message.attach (msgImage) 

38 

39 

40 HSMM 1, FSSA ARP NM test.txt 文件 

41 attl - MIMEText(open("test.txt", "rb").read(), "base64", "utf-8") 
42 attl["Content-Type"] - "application/octet-stream" 

43 # XH filename 可 以 任意 写 ， 写 什么 名 字 ， 邮 件 中 显示 什么 名 字 

44 attl["Content-Disposition"] = 'attachment; filename="test.txt"' 
45 message.attach (attl) 

46 

47 WORT 2, FHSAA TUM. txt 文件 

48 att2 - MIMEText (open ("测试 .txt"， "rb").read(), "base64", "utf-8") 
49 att2["Content-Type"] = "application/octet-stream" 

50 # 这 里 的 filename 可 以 任意 写 ， 写 什么 名 字 ， 邮 件 中 显示 什么 名 字 


51 att2.add header("Content-Disposition", "attachment", filename=("gbk", "", " 


测试 .txt")) 

52 message.attach (att2) 

5 

54 

55: Cry: 

56 smtpObj = smtplib.SMTP() 

5 了 smtpobj .connect (mail_host, 25) # 25 为 SMTP 端口 号 

58 smtpObj.login(mail user, mail pass) 

59 smtpObj.sendmail(sender, receivers, message.as string()) 


60 print (" 发 送 成 功 ") 
61 except smtplib.SMTPException as e: 
62 print (f" 发 送 失败 ,错误 原因 : (er) 


执行 以 上 代码 后 ， 验 证 邮箱 如 图 2.26 所 示 。 
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这 是 正文 : 图 片 及 附件 发 送 测试 
图 片 演示 : 


上 全 部 下 载 全 部 收藏 
test.txt 
[D MS Fe d er. 


Woo 
LS Ma T wm ar- 


图 2.26 运行 结 


2.72 ”接收 邮件 


接收 邮件 的 协议 有 POP3(Post Office Protocol) 和 IMAP(Internet Message Access Protocol), 
Python 内 置 poplib 模块 实现 了 POP3 协议 ， 可 以 直接 用 来 接收 邮件 。 

与 SMTP 协议 类 似 ，POP3 协议 收取 的 不 是 一 个 已 经 可 以 阅读 的 邮件 本 身 ， 而 是 邮件 的 原 
始 文本 ， 要 把 POP3 收取 的 文本 变 成 可 以 阅读 的 邮件 ， 还 需要 用 email 模块 提供 的 各 种 类 来 解 
析 原 始 文本 ， 变 成 可 阅读 的 邮件 对 象 。 收 取 邮 件 分 以 下 两 步 。 


第 一 步 : 用 poplib 模块 把 邮件 的 原始 文本 下 载 到 本 地 。 
第 二 步 : 用 email 模块 解析 原始 文本 ， 还 原 为 邮件 对 象 。 


【示例 2-31】 编 写 get_mailpy 来 演示 如 何 使 用 poplib 模块 接收 邮件 。 代 码 如 下 : 


# -*- encoding:utf-8 -*- 

import poplib 

from email.parser import Parser 

from email.header import decode header 
from email.utils import parseaddr 


+ 输入 邮件 地 址 、 口令 和 Pops 服务 器 地 址 
email = "xxxxx(qq.com" 
password qst AN 


Q0 0 - 0 0 5 (QI-| 
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10 pop3 server = "pop.qq.com" 

11 

12 

13 4 连接 到 POP3 服务 器 , 如 果 开启 ss1， 就 使 用 poplib.POP3 SSL 
14 server = poplib.POP3 SSL(pop3 server) 

15 d 可 以 打开 或 关闭 调试 信息 

16 # server.set debuglevel (1) 

17 # 可 选 :打印 POP3 服务 器 的 欢迎 文字 

18 print (server.getwelcome () .decode ("utf-8")) 

19 

20 # 身份 认证 : 

21 server.user (email) 

22 server.pass (password) 

23 

24 4 stat() 返 回 邮件 数量 和 占用 空间 : 

25 print ("邮件 数量 : ss 个. 大 小 : $.2£MB" $ (server.stat() [0], server.stat() [1] / 1024 
/ 1024)) 

26 

27 

28 # 1ist() 返 回 所 有 邮件 的 编号 : 

29 resp, mails, octets = server.list() 

30 4 可 以 查看 返回 的 列表 ， 类 似 [b'1 82923", b'2 2184", ...] 
31 

32 

33 获取 最 新 一 封 邮 件 ， 注 意 索引 号 从 1 开始 ,最 新 的 邮件 索引 即 为 邮件 的 总 个 数 
34 index = len(mails) 

35 resp, lines, octets = server.retr (index) 

36 

37 # Lines 存储 了 邮件 的 原始 文本 的 每 一 行 可 以 获得 整个 邮件 的 原始 文本 
38 msg content = b"\r\n".join(lines) .decode ("utf-8") 
39 # 稍 后 解析 出 邮件 


40 msg = Parser () .parsestr (msg content) 


41 

42 

43 def decode str (s): 

44 value, charset = decode header (s) [0] 
45 if charset: 

46 value = value.decode (charset) 

47 return value 

48 

49 

50 print (" 解 析 获 取 到 的 邮件 内 容 如 下 : \n----------] begin------------ m 
51 d 打印 发 件 人 信息 

52 print( 

53 


f"( decode str(parseaddr (msg.get('From',''))[0]))«(decode str(parseaddr( msg.g 
et ("From",'")) [1])}>" 

54 ) 

55 # 打印 收 件 人 信息 

56 print( 

57 


106 


第 2 章 基础 运 维 


f"( decode str (parseaddr (msg.get ('To','')) [0]) ) «(decode str(parseaddr( msg.get 
{Tom Dee 

58 ) 

59 # 打印 主题 信息 

60 print(decode str (msg["Subject"])) 

61 # 打印 第 一 条 正文 信息 

62 part0 = msg.get payload() [0] 

63 content = part0.get payload (decode=True) 

64 print (content .decode(part0.get content charset())) # 

65 print("---------- end------------ my 


67 $ 可 以 根据 邮件 索引 号 直接 从 服务 器 删除 邮件 
68 # server.dele (index) 
69 $ 关闭 连接 : 
70 server.quit () 
在 代码 的 第 64 行 ， 我 们 使 用 part0.get_content_charset() 编 码 来 解码 邮件 正文 。 执 行 上 面 的 
代码 得 到 如 下 结果 。 
+OK QQMail POP3 Server v1.0 Service Ready(QQMail v2.0) 
邮件 数量 : 6 个 . 大 小 : 0.11MB 


郑 征 <somenzz@qq.com> 

我 自己 的 邮箱 <897665600@qq. com» 
这 是 主题 ，PYTHON POP 测试 

这 是 正文 ， 你 好 啊 ，POP 


这 是 主题 : PYTHON POP 测试 
oo———— 00000 


2018 年 6 月 21 日 (星期 四 )  F11:01 
\ aes 0 CO > 


这 是 正文 ， 你 好 啊 ，POP 


Best regards! 


图 2.27 运行 结果 


2.7.3 ”将 报警 信息 实时 发 送 至 邮箱 

在 日 常 运 维 中 经 常用 到 监控 ， 其 常用 的 是 短信 报警 、 邮 件 报警 等 。 相 比 短信 报警 ， 邮 件 报 
警 是 一 个 非常 低 成 本 的 解决 方法 ,无 须 付 给 运营 商 短信 费用 ， 一 条 短信 有 字数 限制 ， 而 邮件 无 
此 限制 ， 因 此 邮件 报警 可 以 看 到 更 多 警告 信息 。 
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下 面 使 用 Python 发 送 邮件 的 功能 来 实现 报警 信息 实时 发 送 至 邮箱 ， 有 具体 需求 说 明 如 下 。 


(1) 文本 文件 txt 约定 格式 : 第 一 行为 收 件 人 列表 ， 以 逗号 分 隔 ;， 第 二 行为 主题 ， 第 三 
行 至 最 后 一 行为 正文 内 容 ,最 后 一 行 如 果 是 文件 ， 则 作为 附件 发 送 ， 支 持 多 个 附件 ， 以 逗号 分 
隔 。 

下 面 是 一 个 完整 的 例子 。 
xxx@163.com, yyy@163.com 


xxx 程序 报警 
报警 信息 … . 


/home/log/xxx.1log, /tmp/yyy.log 


(2) 持续 监控 一 个 目录 A 下 的 txt 文件 ， 如 果 有 新 增 或 修改 ， 则 读 取 文 本 中 的 内 容 并 发 
送 邮 件 。 

G) 有 报警 需求 的 程序 可 生成 (1〉 中 格式 的 文本 文件 并 传送 至 目录 A 即 可 。 任 意 程序 
基本 都 可 以 实现 本 步骤 。 

现在 我 们 就 使 用 Python 来 实现 上 述 需求 ， 涉 及 的 Python 知识 点 有 : 文件 编码 、 读 文件 操 
TE. watchdog 模块 应 用 及 发 送 邮件 。 


【示例 2-32】 首 先 编写 一 个 发 送 邮件 的 类 ， 其 功能 是 解析 文本 文件 内 容 并 发 送 邮件 。 
文件 txt2mail.py 内 容 如 下 : 


+ -*- coding: ntf-8 —*— 

import smtplib 

import chardet 

import codecs 

import os 

from email.mime.text import MIMEText 

from email.header import Header 

from email.mime.multipart import MIMEMultipart 


ce 20 050QI!l)rP 


9 
10 # 第 三 方 SMTP 服务 
11 class txtMail(object): 


12 

as) def init (self, host-None, auth user-None, auth password=None) : 

14 self.host = "smtp.163.com" if host is None else host # 设置 发 送 邮 件 服务 
器 

15 self.auth user = "xxxxx" if auth user is None else auth user # 上 线 时 
使 用 专用 报警 账户 的 用 户 名 

16 self.auth password = ( 

17 "*******" if auth password is None else auth password 

18 ) + 上 线 时 使 用 专用 报警 账户 的 密码 

19 self.sender = "xxxxx@163.com" 

20 

21 def send mail(self, subject, msg str, recipient list, 

attachment list-None): 

22 message = MIMEMultipart () 
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31 
32 
33 
34 
35 
36 
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message["From"] = self.sender 


message["To"] = Header(";".join(recipient list), "utf-8") 
message["Subject"] = Header(subject, "utf-8") 
message.attach (MIMEText (msg str, "plain", "utf-8")) 


+ 如 果 有 附件 ， 则 添加 附件 
if attachment list: 
for att in attachment list: 
attachment = MIMEText (open (att, "rb").read(), "base64", "utf-8") 
attachment["Content-Type"] = "application/octet-stream" 
+ 这 里 的 filename 可 以 任意 写 ， 写 什么 名 字 ， 邮 件 中 显示 什么 名 字 
# attname=att.split("/") [-1] 
filename = os.path.basename (att) 
# attm["Content-Disposition"] = 'attachment; 


filename-$s'$attname 


S 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
Si 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 


attachment.add header ( 
"Content-Disposition", 
"attachment", 
filename-("utf-8", "", filename), 
) 


message.attach (attachment) 


smtpObj = smtplib.SMTP SSL() 

smtpObj.connect(self.host, smtplib.SMTP SSL PORT) 
smtpObj.login(self.auth user, self.auth password) 
smtpObj.sendmail(self.sender, recipient list, message.as string()) 
smtpObj .quit () 

print ("邮件 发 送 成 功 ") 


def guess chardet (self, filename): 
:param filename: 传 入 一 个 文本 文件 
:return: 返 回 文本 文件 的 编码 格式 
encoding = None 
try: 
+ 由 于 本 需求 所 解析 的 文本 文件 都 不 大 ， 可 以 一 次 性 读 入 内 存 
+ 如 果 是 大 文件 ， 则 读 取 固 定 字 节 数 
raw = open (filename, "rb") .read () 
if raw.startswith(codecs.BOM UTF8): # 处 理 UTF-8 with BOM 
encoding = "utf-8-sig" 
else: 
result = chardet.detect (raw) 
encoding = result["encoding"] 
except: 
pass 
return encoding 


def txt send mail (self, filename): 
:param filename: 
:return: 
将 指定 格式 的 txt 文件 发 送 至 邮件 ，tzt 文件 样 例如 下 
someone1@xxx.com, someone2@xxx.com. . -# 收 件 人 ， 豆 号 分 隔 


xxx 程序 报警 dE 
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77 程序 xxx 步骤 yyy 执行 报错 ， 错 误 代 码 zzz HEM 
78 详细 信息 请 看 附件 。 EX 
79 filel, file2 HHR ESTA. AEA 
80 ore 
81 
82 with open(filename, encoding=self.guess chardet(filename)) as f: 
83 lines = f.readlines() 
84 recipient list = lines[0].strip().split(",") 
85 subject = lines[1].strip() 
86 msg str = "".join(lines[2:]) 
87 attachment list = [] 
88 for file in lines[-1].strip().split(","): 
89 if os.path.isfile(file): 
90 attachment list.append(file) 
91 $M RECA AEE, WA None 
92 if attachment list == []: 
93 attachment list = None 
94 self.send mail ( 
95 subject=subject, 
96 msg str=msg str, 
97 recipient list=recipient list, 
98 attachment list=attachment list, 
99 ) 
100 
101 
102 if name ==" main ": 
103 mymail = txtMail() 
104 mymail.txt send mail(filename-"./test.txt") 
上 述 代 码 实现 了 自 定义 的 邮件 类 , 功能 是 解析 指定 格式 的 文本 文件 并 发 送 邮件 , 支持 多 个 
附件 上 传 。 


接 下 来 我 们 实现 监控 目录 的 功能 ， 使 用 前 面 学 习 的 watchdog 模块 。 
文件 watchDir.py 内 容 如 下 : 


1 $ —*— coding: utf-B -X= 

2 

3 import time 

4 from watchdog.observers import Observer 

5 from watchdog.events import FileSystemEventHandler 

6 from txt2mail import txtMail 

7 

8 

9 class FileEventHandler (FileSystemEventHandler) : 

10 

all def init (self): 

12 FileSystemEventHandler. init (self) 

13 

14 def on created(self, event): 

15 if event.is directory: 

16 print ("directory created: {0}".format (event.src path) ) 
nly else: 

18 print ("file created: {0}".format (event.src path)) 
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19 
20 
21 
22 
23 
24 
25 
26 
em 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 


改 的 文本 文件 ， 


if 


if event.src path.endswith(".txt"): 


time.sleep (1) 
mail = txtMail() 
try: 
mail.txt send mail(filename-event.src path) 
except: 


print ("文本 文件 格式 不 正确 ") 


def on modified(self, event): 
if event.is directory: 
print ("directory modified: {0}".format (event.src path) ) 


else: 


print ("file modified: {0}".format (event.src path) ) 
if event.src path.endswith(".txt"): 


name 
observer 


time.sleep (1) 
mail = txtMail() 
EEY: 
mail.txt send mail(filename=event.src path) 
except: 


print ("文本 文件 格式 不 正确 ") 


==" main ": 
= Observer () 


event handler = FileEventHandler () 
elie = 


observer 
print (£" 


.Schedule (event handler, dir, False) 
当前 监控 的 目录 : (dir)") 

observer. 
observer. 


start () 
join() 


watchdir 使 用 watchdog 模块 监控 指定 目录 是 否 有 后 级 为 txt 的 文本 文件 ， 如果 有 新 增 或 修 


ge txt2mail 中 的 txtmail 类 的 txt send. mail 方法 ， 如 果 发 送 不 成 功 则 表明 


文本 文件 格式 错误 ， 捕 捉 异 常 是 为 了 避免 程序 崩溃 退出 。 下 面 我 们 运行 测试 一 下 。 
执行 python watchdirpy 后 的 结果 如 图 2.28 所 示 。 


图 2.28 运行 结 


在 ./ 目 录 下 创建 一 个 test.txt 文件 ， 文 件 内 容 如 图 2.29 所 示 。 
保存 后 看 到 运 生 


了 结果 如 图 2.30 所 示 。 


CE 


E Ow jrcb. com, mms. com 
=. rig 


登录 邮件 可 看 到 如 图 2.31 所 示 的 收 件 信息 。 
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这 是 一 个 测试 报警 


SISA NNN 1 5 = 
2018565238 (SS7) 18:47 
aaa Sv jr cb. COm a M 01.com 


附 件 : 1 个 ( 辐 woolog) 


测试 报警 信息 


图 2.31 实时 邮件 发 送 


以 上 基本 满足 我 们 的 日 常 监控 需求 ,实际 的 生产 环境 中 大 家 完全 可 以 依据 具体 需求 具体 分 
析 ， 这 个 例子 也 许 不 是 最 好 的 解决 方案 ， 但 希望 能 起 到 抛砖引玉 的 作用 。 


2.0 ewm 


随 着 移动 互联 网 的 普及 , 微 信 几乎 是 人 人 必用 的 产品 , 使 用 程序 来 处 理 微 信 消 息 有 具有 很 广 
泛 的 应 用 场景 。 本 节 介绍 如 何 使 用 Python 来 处 理 微 信 消 息 ， 以 及 如 何 将 警告 信息 发 送 到 微 信 。 


2.8.1 处 理 微 信 消 息 


Python 处 理 微 信 消息 的 第 三 方 模块 主要 有 wxpy、itchat 等 。wxpy 在 itchat 的 基础 上 通过 
大 量 接口 优化 提升 了 模块 的 易 用 性 ， 并 进行 丰富 的 功能 扩展 ， 这 里 我 们 使 用 wxpy， 使 用 itchat 
的 读者 可 参考 官方 文档 http://itchat.readthedocs.io/zh/latest/。 这 些 模块 使 用 了 Web 微 信 的 通信 
协议 ， 实 现 了 微 信 登 录 、 收 发 消息 、 搜 索 好 友 、 数 据 统计 等 功能 。 

首先 需要 从 官方 源 下 载 并 安装 wxpy。 
pip install wxpy 

或 者 从 豆瓣 源 安装 wxpy。 
pip install -U wxpy -i “ttps://pypi.doubanio.com/simple” 


安装 完成 后 ， 我 们 试 一 下 几 个 基本 功能 。 


COD 查找 好 友 、 群 、 发 送 消息 。 
# encoding=utf-8 


from wxpy import * 


# cache path = True 表示 开启 缓存 功能 ， 短 时 间 不 用 重新 扫 码 
bot = Bot (cache_path=True) 
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# 机 器 人 账号 自身 
myself = bot.self 


# 在 Web 微 信 中 把 自己 加 为 好 友 
bot.self.add() 
bot.self.accept () 


# 发 送 消息 给 自己 
bot.self.send (" 能 收 到 吗 ? ") 


# 向 文件 传输 助手 发 送 消 息 
bot .file helper.send(" 你 好 文件 助手 ") 


# 启用 puid 属性 ， 并 指定 puid 所 需 的 映射 数据 保存 / 载 入 路 径 ， puid 可 始终 被 获取 到 ， 且 具有 稳定 
的 唯一 性 
bot .enable puid("wxpy puid.pkl") 


3 通过 名 称 查找 一 个 好 友 

my friend = bot.friends() .search ("123") [0] 
# 查看 他 的 puia 

print (my friend.puid) 

# '26blcc8a' 

# 通过 puid 来 查找 好 友 

my friend = bot.friends() .search (puid="26blcc8a") [0] 
# 向 好 友 发 送 消息 

my friend.send(" 你 好 ， 朋 友 ") 

# 发 送 图 片 

my friend.send image ("my picture.png") 

# 发 送 视频 

my friend.send video("my video.mov") 

# 发 送 文 件 

my friend.send file("my file.zip") 

# 以 动态 的 方式 发 送 图 片 


my friend.send("@img@my picture.png") 


# 查找 一 个 群 并 发 送 消息 

## 一 些 不 活跃 的 群 可 能 无 法 被 获取 到 ， 可 通过 在 群 内 发 言 ， 或 者 以 修改 群 名 称 的 方式 来 激活 
my group = bot.groups() .search ("三 人 行 ") [0] 

my group.send ("大 家 好 ") 

+ 搜索 名 称 包 含 ' 三 人 行 '"， 且 成 员 中 包含 “my friend” 的 群 聊 对 象 

my groups = bot.groups () .search (" 三 人 行 "， [my_friend]) 


运行 上 面 的 程序 会 弹出 二 维 码 ， 使 用 手机 微 信 扫 一 扫 即 可 实现 登录 。 开 启 了 cache path = 
True 之 后 ， 会 将 登录 信息 保存 下 来 ， 短 时 间 内 登录 不 需要 重新 扫 码 。 


(2) 接收 消息 、 自 动 回复 、 转 发 消息 。 


# 接 收 所 有 消息 
@bot. register () 
def save msg (msg): 
print (msg) 
# 接 收 好 友 消息 ， 并 让 图 灵机 器 人 自动 回复 好 友 消息 
@bot. register (Friend) 
def save msg (msg): 
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print (msg) 
Tuling().do reply(msg) HAM wxpy 自 带 的 图 灵机 器 人 ， 也 可 以 使 用 自己 的 api 


我 们 可 以 利用 接收 消息 再 转发 消息 这 一 功能 来 保存 重要 人 物 (如 老板 ) 所 发 的 消息 。 转 发 
消息 实例 如 下 : 


from wxpy import * 


bot = Bot(cache path=True) 


# 定 位 群 
company group = bot.groups() .search(' 公 司 微 信和 群 ') [0] 


ce -o005s540l!omP 


# 定 位 老板 
9 boss = company group.search(' 老 板 大 名 ') [0] 


11 间 将 老板 的 消息 转发 到 文件 传输 助手 
12 @bot.register (company group) 
13 def forward boss message (msg): 


14 if msg.member == boss: 

15 msg.forward(bot.file helper, prefix-' UR) 
16 

17 $ 堵塞 线程 

18 embed() 


G) 统计 好 友信 息 ， 如 省 份 、 城 市 、 性 别 等 。 


from wxpy import * 
bot = Bot(cache path=True) 
friends stat = bot.friends().stats() 


for province, count in friends stat["province"] .items(): 
if province != "": 
friend loc.append([province, count]) 


1 
2 
3 
4 
5 friend loc = [] # 每 一 个 元 素 是 一 个 二 元 列表 ， 分 别 存储 地 区 和 人 数 信息 
6 
7 
8 


10 # 对 人 数 倒序 排序 


11 friend loc.sort (key=lambda x: x[1], reverse=True) 


13 # 打印 前 10 
14 for item in friend loc[:10]: 
15 print (item[0], item[1]) 


运行 结果 如 图 2.32 所 示 。 


图 2.32 运行 结果 
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可 以 将 上 述 代码 第 6 行 中 的 "province" 蔡 换 为 "city"，"sex" 用 来 统计 城市 和 性 别 信息 。 利 用 
Python 的 图 表 模 块 可 以 轻松 将 统计 数据 生成 漂亮 的 图 表 ， 在 此 不 再 详 述 。 

【示例 2-33】 我 们 还 可 以 利用 微 信 实现 远程 控制 : 定义 一 个 管理 员 ， 当 收 到 管理 员 的 消 
息 命 令 时 ， 执 行 相应 的 指令 。 


import subprocess 
from wxpy import * 


# 指 定 管理 员 


1 

2 

3 

4 bot = Bot() 
5 

6 admin = bot.friends() .search(" 清 如 ") [0] 
7 

8 


9 def remote shell (command): 


10 r = subprocess.run ( 

11 command, 

12 shell=True, 

13 stdout=subprocess.PIPE, 
14 stderr=subprocess.STDOUT, 
15 universal newlines=True, 
16 ) 

17 if r.stdout: 

18 yield r.stdout 

19 else: 

20 yield "[OK]" 

21 

29 

23 def send iter(receiver, iterable): 
24 "nn 

25 用 迭代 的 方式 发 送 多 条 消息 

26 

27 :param receiver: 接收 者 

28 :param iterable: 可 迭代 对 象 

29 non 

30 

31 if isinstance(iterable, str): 
32 raise TypeError 

33 

34 for msg in iterable: 

35 receiver.send (msg) 

36 

3 


38 @bot.register() 
39 def server mgmt (msg): 


40 "nn 
41 若 消息 文本 以 ! 开头 ， 则 作为 shell 命令 执行 

42 "nn 

43 print (msg) 

44 if msg.chat == admin: 

45 if msg.text.startswith("!"): 

46 command = msg.text[1:] 

47 send iter (msg.chat, remote shell (command)) 
48 
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49 # 进 入 阻塞 ， 可 以 在 命令 行 调 试 
50 embed() 


运行 上 面 的 程序 ， 使 用 管理 员 向 登录 号 发 送 命令 ， 结 果 如 图 2.33 所 示 。 


c ER 
机 = 
tec timer, ERI 
“tina wnwbaiaucom EB 
& 


正在 Ping www.a.shifen.com 
[180.97.33.107] 具有 32 字 节 的 数 
据 : 

来 自 180.97.33.107 的 回复 : e 

节 =32 时 间 =12ms TTL-54 

来 自 180.97.33.107 的 回复 : 字 

节 =32 时 间 =28ms TTL=54 

来 自 180.97.33.107 的 回复 : 字 


e» © Gc 


图 2.33 ”实现 微 信 远 程控 制 


28.2 将 警告 信息 发 送 至 微 信 


通过 利用 微 信 强大 的 通知 能 力 ， 我 们 可 以 把 程序 中 的 警告 /日 志 发 到 自己 的 微 信 上 。wxpy 
提供 了 以 下 两 种 方式 来 实现 该 需求 。 


(1) 获取 专 有 的 Logger。 


wxpy.get wechat logger(receiver-None, name-None, level=30) 
参数 说 明 : 


@ receiver: 当 为 None、True 或 字符 串 时 ， 将 以 该 值 作为 cache_path 参数 启动 一 个 新 
的 机 器 人 ， 并 发 送 到 该 机 器 人 的 “文件 传输 助手 ”; 当 为 机 器 人 时 ， 将 发 送 到 该 机 器 
人 的 “文件 传输 助手 ”; 当 为 聊天 对 象 时 ， 将 发 送 到 该 聊天 对 象 。 

@ name: Logger 名 称 。 

@ level: Logger 等 级 ， 默 认为 logging WARNING. 


实例 代码 如 下 : 


from wxpy import get wechat logger 

+ 获得 一 个 专用 Logger 

+ 当 不 设置 'receiver' 时 ,会 将 日 志 发 送 到 随后 扫 码 登录 的 微 信 "文件 传输 助手 " 
logger = get wechat logger() 

# 发 送 警告 

logger.warning (" 这 是 一 条 WARNING 等 级 的 上 日志， 你 收 到 了 吗 ? ') 

# 接收 捕获 的 异常 
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try: 
1/0 
except: 


logger .exception (' 现 在 你 又 收 到 了 什么 ? ') 
(2) 加 入 现 有 的 Logger. 


class wxpy.WeChatLoggingHandler (receiver-None) 
可 以 将 日 志 发 送 至 指定 的 聊天 对 象 。 


参数 说 明 : 
€ receiver: 当 为 None、True 或 字符 串 时 ， 将 以 该 值 作为 cache. path 参数 启动 一 个 新 的 
机 器 人 ， 并 发 送 到 该 机 器 人 的 “文件 传输 助手 ”; 当 为 机 器 人 时 ， 将 发 送 到 该 机 器 人 
的 “文件 传输 助手 ”; 当 为 聊天 对 象 时 ， 将 发 送 到 该 聊天 对 象 。 
实例 代码 如 下 : 
import logging 
from wxpy import WeChatLoggingHandler 


# 这 是 你 现 有 的 Logger 
logger = logging.getLogger( name ) 


+ 初始 化 一 个 微 信 Handler 

wechat handler = WeChatLoggingH andler() 
# 加 入 现 有 的 Logger 
logger.addHandler(wechat handler) 


logger.warning ('" 你 有 一 条 新 的 警告 ， 请 查收 。' ) 


当然 , 我 们 也 可 以 使 用 其 他 聊天 对 象 来 接收 日 志 。 比 如 ， 先 在 微 信 中 建立 一 个 群 聊 ， 并 在 
里 面 加 入 需要 关注 这 些 日 志 的 人 员 ， 然 后 将 该 群 作为 接收 者 。 
from wxpy import * 
# 初始 化 机 器 人 
bot = Bot() 
# 找到 需要 接收 日 志 的 群 -- ‘ensure one () ' 用 于 确保 找到 的 结果 是 唯一 的 ， 避 免 发 错 地 方 
group receiver = ensure one (bot.groups () .search ("Xx 业务 -警告 通知 ')) 
+ 指定 这 个 群 为 接收 者 
logger = get wechat logger(group receiver) 
logger.error ('" 打 扰 大 家 了 ， 但 这 是 一 条 重要 的 错误 日 志 . . .7) 

上 述 两 种 方法 都 是 wxpy 官方 提供 监控 程序 的 方法 ,该 方法 虽然 简单 ,但 每 次 添加 一 个 程 
序 的 微 信 监 控 都 需要 扫描 二 维 码 重新 登录 一 次 , 这 就 显得 非常 麻烦 , 有 没有 一 种 方法 能 让 微 信 
运行 之 后 无 论 添 加 多 少 次 程序 都 不 需要 重新 扫描 二 维 码 呢 ? 当然 有 ,社区 的 程序 员 已 经 为 用 户 
想到 了 一 一 wechat sener 模块 。 

wechat sender 是 基于 wxpy 和 Tornado 实现 的 一 个 可 以 将 网 站 、 疏 虫 、 脚 本 等 其 他 应 用 
中 各 种 消息 (日 志 、 报 警 、 运 行 结果 等 ) 发 送 到 微 信 的 工具 。 

安装 : 


pip install wechat_sender 
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使 用 : 
(1) 只 需要 在 原 有 的 脚本 中 添加 两 行 代码 。 


from wechat sender import * # 在 脚本 前 加 入 模块 
listen (bot) # 在 脚本 末尾 添加 监听 


(2) 然后 在 其 他 脚本 中 添加 以 下 代码 即 可 实现 消息 发 送 至 微 信 。 


from wechat sender import Sender 
Sender().send('Hello From Wechat Sender') 


# Hello From Wechat Sender 这 条 消息 将 通过 (1) 中 登录 微 信 的 文件 传输 助手 发 送 给 你 
例如 我 们 已 有 的 wxpy 脚本 如 下 : 


# coding: utf-8 

from wxpy import * 

bot = Bot('bot.pkl') 

my friend = bot.friends() .search('xxx') [0] 
my friend.send('Hello WeChat!') 


@bot . register (Friend) 
def reply test (msg): 

msg.reply('test') 
bot.join() 


使 用 wechat sender 时 只 需要 增加 第 3 行 和 第 10 行 代 码 即 可 。 


1 # coding: utf-8 

2 from wxpy import * 

3 from wechat sender import listen 
4 bot - Bot('bot.pkl') 

5 my friend = bot.friends().search('xxx') [0] 
6 my friend.send('Hello WeChat!') 

7 @bot. register (Friend) 

8 def reply test (msg): 

9 msg.reply('test') 

10 listen(bot) # 只 需要 改变 最 后 一 行 代码 
11 bot.join() 


之 后 如 果 还 想 在 其 他 程序 或 脚本 中 发 送 微 信 消息 ， 只 需要 : 
# coding: utf-8 
from wechat sender import Sender 
Sender().send("test message") # 发 送 至 已 登录 微 信 的 文件 传输 助手 
Sender () .send to("test message","xxx") PRZE xxx 用 户 ， 也 可 以 发 送 至 群 聊 等 聊天 对 象 

后 续 若 有 程序 需要 发 送 报警 信 息 至 微 信 , 则 不 需要 重新 扫描 二 维 码 , 只 要 添加 相应 的 发 送 
语句 即 可 ， 非 常 简便 。 

以 上 就 是 本 小 节 介 绍 的 如 何 使 用 微 信 处 理 消息 , 以 及 如 何 将 警告 信息 发 送 至 微 信 , 读者 可 
以 依据 具体 需要 定制 自己 的 代码 。 
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我 们 都 知道 进程 是 操作 系统 进行 资源 分 配 和 调度 的 基本 单位 ， 在 单 核 CPU 中 ， 同 一 时 刻 
只 能 运 维 单个 进程 ， 虽 然 仍 可 以 同时 运行 多 个 程序 ， 但 进程 之 间 是 通过 轮流 占用 CPU 来 执行 
的 。 进 程 有 三 种 状态 ， 它 们 之 间 的 转化 关系 如 图 3.1 所 示 。 


运行 态 
PS : 
& ET 等 待 某 个 
m 事件 发 和 
a S 
AA PASE AS 


图 3.1 进程 转化 关系 
随 着 技术 的 不 断 迭 代 更 新 ，CPU 也 越 来 越 强大 ， 目 前 家 用 电脑 的 4 E; CPU 已 经 算 低 配 置 
了 ， 服 务 器 的 CPU 更 是 强劲 ， 从 4 核 到 28 核 ， 有 的 甚至 有 64 核 。 因 此 ， 为 了 充分 发 挥 多 核 
CPU 的 优势 ， 提 高 程序 的 并 发 度 ， 我 们 要 使 用 多 进程 。 
Python 内 置 的 multiprocessing 模块 提供 了 对 多 进程 的 支持 ， 下 面 我 们 将 一 一 介绍 其 用 法 。 


创建 进程 的 类 Process 


multiprocessing 模块 提供 了 一 个 创建 进程 的 类 Process， 其 创建 进程 有 以 下 两 种 方法 。 
€ ”创建 一 个 Process 类 的 实例 ， 并 指定 目标 任务 函数 。 

€ 自 定 义 一 个 类 并 继承 Process 类 ， 重 写 其 _init () 方 法 和 run() 方 法 。 

我 们 首先 使 用 第 一 种 方法 创建 两 个 进程 ， 并 与 单 进程 运行 的 时 间 做 比较 。 

【示例 3-1】 定 义 耗 时 任务 ， 并 对 比 单 进程 和 多 进程 耗 时 (multi process.py) o 


1 from multiprocessing import Process 
2 import os 
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3 import time 
4 d 子 进程 要 执行 的 代码 
5 def task process (delay): 


6 num = 0 

T for i in range (delay*100000000) : 

8 num+=i 

9 print (f" 进 程 pid X {os.getpid() } ,执行 完成 ") 
10 

11 if name ==" main ': 

12 print ( ' 父 进程 pid 为 $s.' % os.getpid()) 
als} t0 = time.time() 

14 task process (3) 

15 task process (3) 

16 tl = time.time() 


17 print (f" 顺 序 执行 耗 时 (t1-tO) ") 


18 p0 = Process(target-task process, args=(3,)) 
19 pl = Process (target=task process, args=(4,)) 
20 t2 = time.time() 

21 p0.start();pl.start() 

22 p0.join();p1.join() 

23 t3 - time.time() 


26 print (f" 多 进程 并 发 执行 耗 时 (t3-t2)") 


上 面 的 代码 首先 定义 了 一 个 上 亿 次 数据 累加 的 耗 时 函数 ,在 运行 结束 时 打印 调用 此 函数 的 
进程 ID, 第 14 和 15 行 是 单 进程 执行 , 第 18 和 19 行 分 别 实例 化 了 Process 类 ， 并 指定 目标 函 
JU task process, 55 21 和 22 行 是 双 进 程 并 行 执行 ， 执行 完 成 后 打印 耗 时 。 其 运行 结果 如 下 : 


父 进程 pid 为 2116. 

进程 pid 为 2116, 执行 完成 

进程 pid 为 2116, 执行 完成 

顺序 执行 耗 时 37.13105368614197 
进程 pid 为 60624, 执行 完成 

进程 pid 为 41016, 执行 完成 

多 进程 并 发 执行 耗 时 24.04837417602539 


我 们 发 现 多 进程 执行 相同 的 操作 次 数 耗 时 更 少 。 接 下 来 我 们 使 用 第 二 种 方法 实现 【示例 
3-1] 。 


【示例 3-2】 自 定义 一 个 类 并 继承 Process 类 (multi_process2.py) 。 


from multiprocessing import Process 
import os 
import time 


class MyProcess (Process): 
def init (self, delay): 

self.delay = delay 

super(). init () 


Q 0 -1 0 O 5 QhNÓ| 


rR 
Ko 


# 子 进程 要 执行 的 代码 


a 
N 
N 
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T2 def run (self): 

13 num = 0 

14 for i in range(self.delay * 100000000): 

ils} num += i 

16 print (£"#EFE pid 为 {os.getpid() } ,执行 完成 ") 

17 

18 

19 if name =" main ": 

20 print ("HEF pid W bs." $ os.getpid()) 

21 p0 = MyProcess (3) 

22 pl = MyProcess (3) 

23 t0 = time.time() 

24 po.start () 

25 pl.start () 

26 p0.join() 

21 pl.join() 

28 tl = time.time() 

29 print (f" 多 进程 并 发 执行 耗 时 (t1-t0)") 

aa 3E pO. pl 在 调用 statO 时 ， 自 动 调用 其 mun0 方 法 。 | 
运行 结果 如 下 : 


父 进 程 pid 为 57228. 
进程 pid 为 59932, 执 行 完 成 
进程 pid 为 61288, 执 行 完 成 
多 进程 并 发 执行 耗 时 24.03329348564148 

下 面 我 们 来 看 一 下 Process 类 还 有 哪些 功能 可 以 使 用 ， 该 类 的 构造 函数 原型 如 下 。 
class multiprocessing.Process(group-None, target-None, name-None, args-(), 
kwargs-(), *, daemon-None) 

参数 说 明 如 下 。 

@ target 表示 调用 对 象 ， 一 般 为 函数 ， 也 可 以 为 类 。 


@ args 表示 调用 对 象 的 位 置 参 数 元 组 。 
€ kwargs 表示 调用 对 象 的 字典 。 

© name 为 进程 的 别名 。 

€ group 参数 不 使 用 ， 可 忽略 。 

类 提供 的 常用 方法 如 下 。 


€ is alive): 返回 进程 是 否 是 激活 的 。 

join([timeout]) : 阻塞 进程 ， 直 到 进程 执行 完成 或 超时 或 进程 被 终止 。 
run() : 代表 进程 执行 的 任务 函数 ， 可 被 重 写 。 

start() : 激活 进程 。 

terminate(): 终止 进程 。 
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属性 如 下 。 

€ authkey: 字 节 码 ， 进 程 的 准 密 钥 。 

@ daemon: 父 进程 终止 后 自动 终止 ， 且 不 能 产生 新 进程 ， 必 须 在 start() 之 前 设置 。 
€ exitcode: 退出 码 ， 进 程 在 运行 时 为 None， 如 果 为 -N， 就 表示 被 信号 NAR. 
@ name: 获取 进程 名 称 。 


pid: 进程 id。 


【示例 3-3】 不 设置 daemon 属性 (multi process no daemo.py) 。 


def 


FPRORIYIDHBWNHH 
ro 


it 


BR 
w N 


RR 
as 


这 


from multiprocessing import Process 
import os 
import time 


# 子 进程 要 执行 的 代码 


task process (delay): 

print(f"(time.strftime('$Y-$m-$d $H:3M:$S')]) 子 进程 执行 开始 。") 
print(f"sleep {delay}s") 

time.sleep (delay) 

print(f"(time.strftime('$Y-$m-$d %H:%M:%S')} 子 进程 执行 结束 。") 


name --' main ': 
print(f"(time.strftime('$Y-$m-$d %H:%M:%S')} 父 进程 执行 开始 。") 
p0 = Process(target-task process, args=(3,)) 
p0.start() 
print(f"(time.strftime('$Y-$m-$d %H:%M:%S')} 父 进程 执行 结束 。") 


里 没有 使 用 p0.join0) 来 阻塞 进程 。 运 行 结果 如 下 : 


2018-07-11 21:13:30 父 进程 执行 开始 
2018-07-11 21:13:30 父 进程 执行 结束 
2018-07-11 21:13:30 子 进 程 执 行 开 始 


sleep 


3s 


2018-07-11 21:13:33 子 进 程 执 行 结束 


可 
运行 完 


def 


06 -1O Ub & Q0 IP7c 
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以 看 出 , 父 进程 并 没有 等 待 子 进程 运行 完成 就 打印 了 退出 信息 , 程序 依然 会 等 待 子 进程 
成 。 


示例 3-4] iX EL daemon 属性 (multi process daemo.py) 。 


from multiprocessing import Process 
import os 
import time 


# 子 进程 要 执行 的 代码 


task process (delay): 

print(f"(time.strftime('$Y-$m-$d %H:3M:%S")} 子 进程 执行 开始 。") 
print(f"sleep {delay}s") 

time.sleep (delay) 

print(f"(time.strftime('$Y-$m-$d $H:2M:$5')]) 子 进程 执行 结束 。") 


name 一 ' main ' 
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12 print(f"(time.strftime('*$Y-$m-$d %H:3M:3S')} 父 进 程 执行 开始 。") 

JS p0 = Process(target-task process, args=(3,)) 

14 TEE daemon 属性 为 True 

15 p0.daemon = True 

16 p0.start () 

17 print(f"(time.strftime('$Y-$m-$d %H:%M:%S")} 父 进程 执行 结束 。") 
运行 结果 如 下 : 


2018-07-11 21:17:33 父 进程 执行 开始 
2018-07-11 21:17:33 父 进程 执行 结束 


程序 并 没有 等 待 子 进程 结束 而 结束 ， 只 要 主 程序 运行 结束 ， 程 序 即 退出 。 


» 


”进程 并 发 控制 之 Semaphore 


Semaphore 用 来 控制 对 共享 资源 的 访问 数量 ， 可 以 控制 同一 时 刻 并 发 的 进程 数 。 
【示例 3-5】 多 进程 同步 控制 (multi_process_Semaphore.py) 。 


1 import multiprocessing 
2 import time 
S 
4 def worker(s, i): 
E s.acquire() 
6 print (time.strftime ('%H:%M:%S') ,multiprocessing.current process().name + 
" 获得 锁 运 行 ") ; 
7 time.sleep (i) 
8 print (time.strftime ('%H:%M:%S') ,multiprocessing.current process().name + 
" 释放 锁 结束 ") ; 
9 s.release() 
10 
11 if name ==" main ": 
12 s = multiprocessing.Semaphore (2) 
13 for i in range (6) : 
14 p = multiprocessing.Process(target = worker, args-(s, 2)) 
15 p.start(): 
运行 结果 如 下 : 


22:34:36 Process-1 获得 锁 运行 
:36 Process-2 获得 锁 运 行 
:38 Process-1 释放 锁 结束 
22:34:38 Process-3 获得 锁 运 行 
22:34:38 Process-2 释放 锁 结束 
22:34:38 Process-4 获得 锁 运行 
22:34:40 Process-3 释放 锁 结 束 
22:34:40 Process-5 获得 锁 运 行 
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22:34:40 Process-4 释放 锁 结束 
22:34:40 Process-6 获得 锁 运 行 
22:34:42 Process-5 释放 锁 结 束 
22:34:42 Process-6 释放 锁 结 束 


由 于 我 们 设置 了 s= multiprocessing.Semaphore (2) ， 因 此 同一 时 刻 只 有 两 个 进程 在 执行 
操作 。 


进程 同步 之 Lock 


多 进程 目的 是 并 发 执行 , 提高 资源 利用 率 ， 从 而 提高 效率 , 但 有 时 候 我 们 需要 在 某 一 时 间 
只 能 有 一 个 进程 访问 某 个 共享 资源 的 话 ， 就 需要 使 用 锁 Lock。 


示例 3-6】 多 个 进程 输出 信息 ， 不 加 锁 (multi process. no Lock.py) 。 


1 import multiprocessing 
2 import time 


3 


4 
5 
6 
7 
8 


o 
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def taskl(): 


5 
while n » 1: 
print(f"(time.strftime('$H:$M:$S')) taskl 输出 信息 ") 
time.sleep (1) 
no 


def task2(): 


n=5 

while n > 1: 
print(f"(time.strftime('$H:3M:$S')) task2 输出 信息 ") 
time.sleep (1) 
m 


def task3(): 


if 


ASS 

while n > 1: 
print (£"{time.strftime ('%H:%M:%S')} task3 输出 信息 ") 
time.sleep (1) 
n -= 1 


name ==" main ": 
pl = multiprocessing. Process (target-taskl) 
p2 = multiprocessing. Process (target=task2) 
p3 = multiprocessing. Process (target=task3) 
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33 pl.start () 
34 p2.start () 
35 p3.start () 


上 述 代 码 未 使 用 锁 ， 生 成 三 个 子 进程 ， 每 个 进程 都 打印 自己 的 信息 。 运 行 结果 如 下 : 


21:22:35 taskl 输出 信息 
21:22:35 task2 输出 信息 
21:22:36 task3 输出 信息 
21:22:36 taskl 输出 信息 
21:22:36 task2 输出 信息 
21:22:36 task3 输出 信息 
21:22:37 taskl 输出 信息 
21:22:37 task2 输出 信息 
21:22:37 task3 输出 信息 
21:22:38 taskl 输出 信息 
21:22:38 task2 输出 信息 
21:22:39 task3 输出 信息 


从 运行 结果 可 以 看 出 ， 同 一 时 刻 有 两 个 进程 都 在 打印 信息 , 在 实际 的 应 用 中 ， 可 能 会 造成 
信息 混乱 。 现 在 我 们 修改 一 下 上 面 的 程序 ， 要 求 同 一 时 刻 仅 有 一 个 进程 在 输出 信息 。 


【示例 3-7】 多 个 进程 输出 信息 ， 加 锁 (mnulti process Lock.py) 。 


import multiprocessing 
import time 


with lock: 
i 
while n > 1: 


d 

2 

3 

4 

5 def taskl (lock): 
6 

7 

8 

9 print(f"(time.strftime('$H:$M:$S')) taskl 输出 信息 ") 
al 


0 time.sleep (1) 

11 n--1 

12 

13 

14 def task2 (lock): 

15 lock.acquire () 

16 i meu 

17 while n > 1: 

18 print(f"(time.strftime('$H:2M:$S')) task2 输出 信息 ") 
19 time.sleep (1) 

20 n-=1 

2X lock.release() 

22 

23 

24 def task3 (lock): 

25 lock. acquire () 

26 Huc 

2J while n > 1: 

28 print (f"{time.strftime('%H:%M:%S')} task3 输出 信息 ") 
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34 if 


lo 


name ==" main 


lo 


time.sleep (1) 
m= ab 
ck.release() 


ck = multiprocessing. Lock () 
multiprocessing. Process (target=taskl, args=(lock,)) 
multiprocessing. Process (target=task2, args=(lock,)) 
multiprocessing. Process (target=task3, args=(lock,)) 
start () 

¿start () 

.Start () 


"ow aw 


上 面 的 代码 中 ， 每 一 个 子 进程 任务 函数 都 加 了 锁 Lock。 使 用 锁 也 非常 简单 ， 首 先 初始 化 


一 个 锁 的 实例 lock = multiprocessing.Lock()， 然 后 在 需要 独占 的 代码 前 后 加 锁 ( 先 获取 锁 〉， 
即 调用 lock.acquire() 方 法 ， 运 行 完成 后 释放 锁 ， 即 调用 lock.release() 方 法 ; 也 可 以 使 用 上 下 文 
关键 字 with (IL taskl 的 代码 ) 。 上 述 代码 运行 结果 如 下 : 


abs 
ele 2 
21:27: 
ELS 
Suse 
20227: 
201227: 
ZLB ETS 
ZAL BETS 
PA BeA a 
S12 
2 


14 
15 
16 
17 
18 


taskl 输出 信息 
taskl 输出 信息 
taskl 输出 信息 
taskl 输出 信息 
task2 输出 信息 
task2 输出 信息 
task2 输出 信息 
task2 输出 信息 
task3 输出 信息 
task3 输出 信息 
task3 输出 信息 
task3 输出 信息 


从 输出 结果 可 以 看 出 ， 同 一 时 刻 仅 有 一 个 进程 在 输出 信息 。 


Fy A 
本 .全 ”进程 同步 之 Event 
Event 用 来 实现 进程 之 间 同 步 通信 ， 请 看 下 面 的 例子 。 


【示例 3-8] multi_process_Event.py. 


1 import multiprocessing 
2 import time 


3 
4 


5 def wait for event(e): 


6 
7 
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ait() 


time.sleep (1) 
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8 唤醒 后 清除 Event 状态 ， 为 后 续 继续 等 待 


9 e.clear() 

10 print (£"{time.strftime('SH:3M:%S')} 进程 A: 我 们 是 兄弟 ， 我 等 你 . - .") 
11 e.wait() 

12 print(f"(time.strftime('$H:$M:$S')) 进程 A: 好 的 ， 是 兄弟 一 起 走 ") 
3 

14 

15 def wait for event timeout(e, t): 

16 e.wait () 

any time.sleep (1) 

18 + 唤醒 后 清除 Event 状态 ， 为 后 续 继续 等 待 

19 e.clear() 


20 print (£"{time.strftime ('SH:%M:%S')} 进程 B: 好 吧 ， 最 多 等 你 (t) W") 
2T e.wait (t) 
22 print (£"{time.strftime ('SH:3M:%S')} 进程 B: 我 继续 往 前 走 了 ") 


23 

24 

25 if name ==" main ": 

26 e = multiprocessing. Event () 

27 wl = multiprocessing.Process(target-wait for event, args=(e,)) 

28 w2 = multiprocessing.Process( target-wait for event timeout, args=(e, 5) ) 
29 wl.start () 

30 w2.start () 


31 # 主 进程 发 话 

32 print(f"(time.strftime('$H:$M:$S')) 主 进程 : 谁 等 我 下 ， 我 需要 8 s 时 间 ") 
33 # 唤醒 等 待 的 进程 

34 e-set() 

35 time.sleep (8) 

36 print(f"(time.strftime('$H:$M:39')) 主 进程 : 好 了 ， 我 赶 上 了 ") 

37 # 再 次 唤醒 等 待 的 进程 


38 e.set() 

39 w1.join() 

40 w2.join() 

41 print(f"(time.strftime('$H:$M:$S')) 主 进程 : 退出 ") 


上 述 代码 定义 了 两 个 进程 函数 : 一 个 是 等 待 事件 发 生 ; 另 一 个 是 等 待 事件 发 生 并 设置 超时 
时 间 。 主 进程 调用 事件 的 set0) 方 法 唤醒 等 待 事件 的 进程 , 事件 唤醒 后 调用 clear0) 方 法 清除 事件 
的 状态 并 重新 等 待 ， 以 此 达到 进程 同步 的 控制 。 执 行 结果 如 下 : 


20:47:27 主 进程 : 谁 等 我 下 ， 我 需要 8 秒 时 间 
20:47:28 进程 A: 我 们 是 兄弟 ， 我 等 你 . . . 
20:47:28 进程 B: 好 吧 ， 最 多 等 你 5 秒 
20:47:33 进程 B: 我 继续 往 前 走 了 

20:47:35 主 进程 : 好 了 ,我 赶 上 了 

20:47:35 进程 A: 好 的 ， 是 兄弟 一 起 走 
20:47:35 主 进 程 : 退出 
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Queue 是 多 进程 安全 的 队列 ， 可 以 使 用 Queue 实现 多 进程 之 间 的 数据 传递 。put 方法 用 以 
插入 数据 到 队列 中 ，put 方法 还 有 两 个 可 选 参数 : blocked 和 timeout。 如 果 blocked W True (ER 
认 值 ) ， 并 且 timeout 为 正 值 ， 则 该 方法 会 阻塞 timeout 指定 的 时 间 ， 直 到 该 队列 有 剩余 的 空 
间 。 如 果 超 时 ， 则 会 抛 出 Queue Full 异常。 如 果 blocked 为 False， 但 该 Queue 已 满 ， 则 会 立 
即 抛 出 Queue.Full 异常 。get 方法 可 以 从 队列 读 取 并 删除 一 个 元 素 。 同 样 ，get 方法 有 两 个 可 选 
参数 : blocked 和 timeout。 如 果 blocked 为 True (默认 值 ) ， 并 且 timeout 为 正 值 ， 在 等 待 时 
间 内 没有 取 到 任何 元 素 ， 则 会 抛 出 Queue.Empty 异常 。 如 果 blocked X False, MAKAA Pi 
种 情况 存在 : Queue 有 一 个 值 可 用 ， 立 即 返 回 该 值 ， 否 则 队列 为 室 ， 立 即 抛 出 Queue.Empty 


【示例 3-9】 使 用 多 进程 实现 生产 者 -消费 者 模式 。 


1 from multiprocessing import Process,Queue 
2 import time 


3 

4 def ProducerA (q): 

5 count = 1 

6 while True: 

E q.put(f"4MX (count)") 

8 print(f"(time.strftime('$H:$M:$S')) A 放 入 : [冷饮 {count}]") 
count +=1 

10 time.sleep (1) 

11 

12 def ConsumerB (q): 

13 while True: 

14 print (f"(time.strftime('$H:2M:$S')) B 取出 [{q.get()}]") 

15 time.sleep (5) 

16 if name == ' main ': 

I7 q = Queue (maxsize=5) 

18 p = Process (target=ProducerA, args- (q,)) 

19 c = Process (target=ConsumerB, args=(q, ) ) 

20 c.start() 

21 p-start() 

22 c.join() 

23 p-join() 


上 述 代 码 定 义 了 生产 者 函数 和 消费 者 函数 ， 设 置 其 队列 的 最 大 容量 是 5 ， 生 产 者 不 停 的 
生产 冷饮 ,消费 者 就 不 停 的 取出 冷饮 消费 ， 当 队列 满 时 ， 生 产 者 等 待 ， 当 队列 空 时 ， 消 费 者 等 
待 。 他 们 放 入 和 取出 的 速度 可 能 不 一 致 ， 但 使 用 Queue. 可 以 让 生产 者 和 消费 者 有 条 不 率 地 一 
直 进 程 下 去 。 运 行 结果 如 下 : 

21:04:19 A 放 入 : [冷饮 1] 
21:04:19 B 取出 [冷饮 1] 
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21:04:20 A 放 入 : [冷饮 2] 
21:04:21 A 放 入 : [冷饮 3] 
21:04:22 A 放 入 : [冷饮 4] 
21:04:23 A 放 入 : [冷饮 5] 
21:04:24 B 取出 [冷饮 2] 
21:04:24 A 放 入 : [冷饮 6] 
21:04:25 A XA: [冷饮 71 
21:04:29 B 取出 [冷饮 3] 
21:04:29 A 放 入 : [冷饮 8] 
21:04:34 B 取出 [冷饮 4] 
21:04:34 A 放 入 : [冷饮 9] 
21:04:39 B 取出 [冷饮 5] 
21:04:39 A 放 入 : [冷饮 10] 


从 结果 可 以 看 出 ， 生 产 者 A 生产 的 速度 较 快 ， 当 队列 满 时 ， 等 待 消费 者 B 取出 后 继续 放 


3.6 siii Pool 


在 使 用 Python 进行 系统 管理 的 时 候 ， 特 别 是 同时 操作 多 个 文件 目录 ， 或 者 远程 控制 多 台 
主机 并 行 操作 , 可 以 节约 大 量 的 时 间 。 当 被 操作 对 象 数目 不 大 时 , 可 以 直接 利用 multiprocessing 
中 的 Process 动态 生成 多 个 进程 ， 十 几 个 还 好 ， 但 如 果 是 上 百 个 ， 上 千 个 目标 ， 手 动 限制 进程 
数量 又 太 过 烦琐 ， 此 时 就 可 以 发 挥 进程 池 的 功效 了 。 

Pool 可 以 提供 指定 数量 的 进程 供用 户 调用 ， 当 有 新 的 请 求 提交 到 pool 中 时 ， 如 果 池 还 没 
有 满 ， 就 会 创建 一 个 新 的 进程 用 于 执行 该 请 求 ， 如 果 池 中 的 进程 数量 已 经 达到 规定 的 最 大 值 ， 
该 请 求 就 会 等 待 ， 直 到 池 中 有 进程 结束 才 会 创建 新 的 进程 。 

【示例 3-10】 多 进程 使 用 进程 池 Pool。 
#coding: utf-8 


import multiprocessing 
import time 


def task (name): 
print(f"(time.strftime('$H:2M:$S')): (name) 开始 执行 ") 
time.sleep (3) 


DIDRHBEWNE 


o 


if name ==" main ": 
pool = multiprocessing.Pool(processes = 3) 
for i in range(10): 
# 维 持 执行 的 进程 总 数 为 processes， 当 一 个 进程 执行 完毕 后 会 添加 新 的 进程 进去 
pool.apply async(func = task, args=(i,)) 
pool.close() 
pool.join() 


FF 
WNRO 


BR 
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16 print ("hello") 
运行 结果 如 下 : 
21:23:34: 0 开始 执行 
21:23:34: 1 开始 执行 
21:23:34: 2 开始 执行 
21:23:37: 3 开始 执行 
21:23:37: 4 开始 执行 
21:23:37: 5 开始 执行 
21:23:40: 6 开始 执行 
21:23:40: 7 开始 执行 
21:23:40: 8 开始 执行 
21:23:43: 9 开始 执行 


从 运行 结果 来 看 同一 时 刻 只 有 三 个 进程 在 执行 ， 使 用 Pool 实现 了 对 进程 并 发 数 的 控制 。 


3.7 多 进程 之 数据 交换 Pipe 


我 们 在 类 Unix 系统 中 经 常 使 用 管道 (Pipe) 命令 来 让 一 条 命令 的 输出 〈STDOUT) 作为 
另 一 条 命令 的 输入 〈STDIN ) 获取 最 终 的 结果 。 在 Python 多 进程 编程 中 也 有 一 个 Pipe 方法 可 
以 帮忙 我 们 实现 多 进程 之 前 的 数据 传输 。 我 们 可 以 将 Unix 系统 中 的 一 个 命令 比 作 一 个 进程 ， 
一 个 进程 的 输出 可 以 作为 另 一 个 进程 的 输入 ， 如 图 3.2 所 示 。 


STDOUT STDIN STDOUT STDIN 


图 3.2 管道 命令 示意 图 


multiprocessing.Pipe() 方 法 返回 一 个 管道 的 两 个 端口 ， 如 Commandl 的 STDOUT 和 
Command2 的 STDIN， 这 样 Command! 的 输出 就 作为 Command2 的 输入 。 如 果 反 过 来 ， 让 
Command2 的 输出 也 可 以 作为 Command! 的 输入 ， 这 就 是 全 双 工 管道 ， 默 认 全 双 工 管道 。 如 
果 想 设置 半 双 工 管道 ， 只 需要 给 Pipe0 方 法 传递 参数 duplex=False 就 可 以 ， 即 
Pipe(duplex=False)。 

Pipe(0 方 法 返回 的 对 象 具 有 发 送 消息 send0 方 法 和 接收 消息 recv0 方 法 ， 可 以 调 | 
Commandl.send(msg) 发 送 消息 ， 调 用 Command2.recv() 接 收 消息 。 如果 没有 消息 可 接收 ,recv() 
方法 会 一 直 阻 塞 。 如 果 管 道 已 经 被 关闭 ， recv0 方 法 就 会 抛 出 异常 EOFError。 
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14 


15 def task? (pipe): 


16 
23 
18 
19 
20 
21 
22 
23 
24 
25 
26 
2 
28 
29 
30 
31 
32 
33 
34 
35 


Es 
232 
23: 
SE 
SE 
235 
235 
23: 
235 
235 


【示例 3-11】 多 进程 全 双 工 管道 (multi process pipe.py) o 


import multiprocessing 


import 


def ta 


time 


Sk1 (pipe): 


for i in range (5) 


str = f"taskl-(i)" 
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print (£"{time.strftime ('SH:3M:%S')} taskl Aik: {str}") 
pipe.send (str) 
time.sleep (2) 

for i in range (5) : 
print (£"{time.strftime ('%H:%M:%S')} taskl 接收 : ( pipe.recv() }") 


for i in range (5) 
print (£"{time.strftime ('%H:%M:%S')} task2 接收 : ( pipe.recv() )") 
time.sleep (1) 

for i in range (5) 


if name 
pe = multiprocessing. Pipe() 


pi 
pi 
p2 


pl: 


p2 


pl 
p2 


str = f"task2-(i)" 


print(f"(time.strftime('$H:$M:$S')] task2 发 送 : (str)") 
pipe.send(str) 


main 


= multiprocessing.Process (target-taskl, args=(pipe[0],)) 


start () 
.Start () 


.join() 
.join() 


multiprocessing.Process(target-task2, args-(pipe[1],)) 


首先 程序 定义 了 两 个 子 进程 函数 : taskl 先 发 送 5 条 消息 , 再 接收 消息 ; task2 先 接收 消息 ， 
再 发 送 消息 。 运 行 结果 如 下 : 


26:21 
26:21 
26:21 
26:21 
26:21 
26:21 
26:21 
26:21 
26:21 
26:21 


taskl 发 送 : 
taskl 发 送 : 
taskl Rik: 
taskl Rik: 
taskl Rik: 
task2 接收 : 
task2 接收 : 
task2 接收 : 
task2 接收 : 
task2 接收 : 


task1-0 
taskl-1 
task1-2 
taskl-3 
taskl-4 
taskl-0 
taskl-1 
taskl-2 
taskl-3 
taskl-4 
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23:26:22 task2 发 送 : task2-0 
23:26:22 task2 发 送 : task2-1 
23:26:22 task2 发 送 : task2-2 
23:26:22 task2 发 送 : task2-3 
23:26:22 task2 Rik: task2-4 
23:26:23 taskl 接收 : task2-0 
23:26:23 taskl 接收 : task2-1 
23:26:23 taskl 接收 : task2-2 
23:26:23 taskl 接收 : task2-3 
23:26:23 taskl 接收 : task2-4 


E= 代码 中 的 time.sleep0 操 作 可 以 让 显示 的 结果 不 会 太 混乱 ,这 一 步 并 不 影响 进程 接收 和 发 送 
消息 。 


134 


第 4 


实战 多 线程 


线程 (Thread) 也 称 轻 量 级 进程 ， 是 操作 系统 能 够 进行 运算 调度 的 最 小 单位 ， 它 被 包涵 在 
进程 之 中 , 是 进程 中 的 实际 运作 单位 。 线 程 自身 不 拥有 系统 资源 ， 只 拥有 一 些 在 运行 中 必 不 可 
少 的 资源 , 但 它 可 与 同属 一 个 进程 的 其 他 线程 共享 进程 所 拥有 的 全 部 资源 。 一 个 线程 可 以 创建 
和 撤销 另 一 个 线程 ， 同 一 进程 中 的 多 个 线程 之 间 可 以 并 发 执行 。 


线程 有 就 绪 、 阻 塞 、 运 行 三 种 基本 状态 。 


@ 就 绪 状 态 是 指 线程 具备 运行 的 所 有 人 条件， 逻辑 上 可 以 运行 ， 在 等 待 处 理 机 。 


© 运行 状态 是 指 线程 占有 处 理 机 正在 运行 。 


@ 阻塞 状态 是 指 线程 在 等 待 一 个 事件 ( 如 某 个 信号 量 ) BERTHA. 


三 种 状态 的 相互 转化 如 图 4.1 所 示 。 


Rien 被 阻塞 “例如 sleep 方法 


v i 
EX 


^ 
通过 new Thresd() I 


线程 运行 结束 ， 或 被 停止 
b 


图 4.1 线程 状态 转化 


Python 多 线程 简介 


我 们 知道 , 多 线程 和 单线 程 相 比 可 以 提高 资源 利 


AE. 让 程序 响应 更 快 。 单 线程 是 按 顺序 


执行 ， 例 如 有 一 单线 程 程序 执行 如 下 操作 : 
5 秒 读 取 文件 A 
3 BEREICHE A 
5 Pei cf E B 
3 秒 处 理 文件 B 

则 需要 16 秒 完成 。 如 果 开 启 两 个 线程 来 执行 ， 如 下 所 示 : 
5 秒 读 取 文件 A 
5 秒 读 取 文 件 B + 3 秒 处 理 文件 A 
3 秒 处 理 文件 B 

则 需要 13s 完成 。 

有 的 读者 可 能 会 想到 Python 中 的 多 线程 ， 由 于 全 局 锁 GIL (Global interpreter lock) 限制 
T Python 中 的 多 线程 ， 同 一 时 刻 只 能 有 一 个 线程 运行 ， 无 法 发 挥 多 核 CPU 的 优势 。 首 先 需要 
明确 GIL 并 不 是 Python 的 特性 ， 它 是 在 实现 Python 解析 器 (CPython) 时 所 引入 的 一 个 概念 。 
就 好 比 C++ 是 一 套 语 言 〈 语 法 ) 标准 ， 可 以 用 不 同 的 编译 器 来 编译 成 可 执行 代码 ， 比 较 有 名 
的 编译 器 如 GCC INTEL C++, Visual C++ 等 .Python 也 一 样 , 同样 一 段 代 码 可 以 通过 CPython、 
PyPy、Psyco 等 不 同 的 Python 执行 环境 来 执行 ， 像 其 中 的 CPython 就 没有 GIL。 然 而 因为 
CPython 是 大 部 分 环境 下 默认 的 Python 执行 环境 ,所 以 在 很 多 人 的 概念 里 CPython 就 是 Python， 
也 就 想当然 地 把 GIL 归结 为 Python 语言 的 缺陷 .因此 , 这 里 需要 先 明 确 一 点 :GIL 并 不 是 Python 
的 特性 ，Python 完全 可 以 不 依赖 于 GIL. 

GIL 本 质 就 是 一 把 互 斥 锁 ， 既 然 是 互 斥 锁 ， 那 么 所 有 互 斥 锁 的 本 质 就 都 一 样 ， 都 是 将 并 发 
运行 变 成 串 行 ， 以 此 来 控制 同一 时 间 内 共享 数据 只 能 被 一 个 任务 修改 ， 进 而 保证 数据 的 安全 。 
由 于 CPython 的 内 存 管理 机 制 ， 因 此 需要 确保 共享 数据 的 访问 安全 ， 即 加 锁 处 理 CGIL) 。 

有 了 GIL 的 存在 ， 同 一 时 刻 同 一 进程 中 只 有 一 个 线程 被 执行 ， 那 么 有 读者 可 能 要 问 了 : 
进程 可 以 利用 多 核 , 而 Python 的 多 线程 却 无 法 利用 多 核 优势 ,Python 的 多 线程 是 不 是 没 用 了 ? 
答案 当然 不 是 。 

首先 明确 我 们 线程 执行 的 任务 是 什么 ， 是 做 计算 〈 计 算 密集 型 ) 还 是 做 输入 /输出 (IO 密 
集 型 ) ， 不 同 的 场景 使 用 不 同 的 方法 。 多 核 CPU， 意 味 着 可 以 有 多 个 核 并 行 完成 计算 ， 多 核 
提升 的 是 计算 性 能 ， 但 每 个 CPU 一 旦 遇 到 IO 阻塞 ， 仍 需要 等 待 ， 所 以 多 核对 IO 密集 型 任 
务 没什么 太 高 提升 。 

下 面 举 例子 说 明 。 

【示例 4-1】 计 算 密集 型 任务 -多 进程 Cjsmjx multi process.py) 。 


from multiprocessing import Process 
import os, time 


# 计 算 密集 型 任务 
def work(): 
res = 0 
for i in range (100000000) : 
res *= i 


BDIYDRHTHBWNHE 
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B 

10 if name ==" main ": 

11 l= II 

12 print ("本 机 为 ",os.cpu count(),"& CPU") 4 本 机 为 4 核 

13 start = time.time() 

14 for i in range (4) : 

15 p = Process(target-work) # 多 进程 

16 l.append (p) 

17 p.start() 

18 for pin i: 

19 p.join() 

20 stop = time.time() 

21 print (" 计 算 密集 型 任务 ， 多 进程 耗 时 ts" % (stop - start)) 
运行 结果 如 下 : 

本 机 为 4 核 CPU 


计算 密集 型 任务 ， 多 进程 耗 时 14.901630640029907 


【示例 4-2】 计 算 密集 型 任务 -多 线程 (jsmjx_multi_thread.py) 。 


1 from threading import Thread 

2 import os, time 

9 

4 埋 计 算 密集 型 任务 

5 def work(): 

6 res = 0 

7 for i in range (100000000): 

8 res *= i 

9 

10 if name ==" main ": 

pel l= [] 

Jo print ("本 机 为 ",os.cpu count(),"H CPU") 4 本 机 为 4 核 

13 start = time.time() 

14 for i in range (4): 

15 p = Thread(target=work) # 多 进程 

16 l.append (p) 

mon p.start () 

18 for pun 

19 p.join() 

20 stop = time.time() 

21 print (" 计 算 密集 型 任务 ， 多 线程 耗 时 ss" $ (stop - start)) 
运行 结果 如 下 : 

本 机 为 4 核 CPU 


计算 密集 型 任务 ， 多 线程 耗 时 23.559885025024414 


1 
2 
3 


【示例 4-3] UO 密集 型 任务 -多 进程 Gomjx multi process.py) 。 


from multiprocessing import Process 
import os, time 


BAB 实战 多 线程 
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4 #I/0 密集 型 任务 
5 def work() : 


6 time.sleep (2) 

T7 print ("===>", file-open("tmp.txt", "w")) 

8 

9 if name =" main ": 

10 L= n 

11 print (" 本 机 为 "，os .cpu count(), "& CPU") # 本 机 为 4 核 

12 start = time.time() 

13 for i in range(400): 

14 p = Process(target-work) # 多 进程 

o l.append (p) 

16 p.start() 

27 for p in 1: 

18 p.join() 

19 stop = time.time() 

20 print("I/O 密集 型 任务 ， 多 进程 耗 时 ss" $ (stop - start)) 
运行 结果 如 下 : 

本 机 为 4 Fi CPU 


I/0 密集 型 任务 ， 多 进程 耗 时 21.380212783813477 
【示例 4-41 VO 密集 型 任务 -多 线程 Gomjx multi thread.py) 。 


from threading import Thread 
import os, time 


1 

2 

3 

4 41/0 密集 型 任务 

5 def work(): 

6 time.sleep (2) 

T print ("===>", file=open("tmp.txt", "w")) 
8 

2) 

1 


0 if name ==" main ": 

11 1-2 ll 

12 print (" 本 机 为 "，os .cpu count () ，" 核 CPU") # 本 机 为 4 核 

13 start = time.time() 

14 

15 for i in range (400): 

16 p = Thread(target-work) # 多 线程 

77 l.append (p) 

18 p-start () 

19 Torpin es! 

20 p.join() 

21 stop = time.time() 

22 print ("1/0 密集 型 任务 ， 多 线程 耗 时 $s" € (stop - start)) 
运行 结果 如 下 : 

本 机 为 4 核 CPU 


I/0 密集 型 任务 ， 多 线程 耗 时 2.1127078533172607 
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结论 : 在 Python 中 ， 对 于 计算 密集 型 任务 ， 多 进程 占 优势 ， 对 于 IO 密集 型 任务 ， 多 线 
程 占 优势 。 

当然 ， 对 运行 一 个 程序 来 说 ， 随 着 CPU 的 增多 执行 效率 肯定 会 有 所 提高 ， 这 是 因为 一 个 
程序 基本 上 不 会 是 纯 计算 或 纯 IO， 所 以 我 们 只 能 相对 的 去 看 一 个 程序 到 底 是 计算 密集 型 还 是 
VO 密集 型 。 


多 线程 编程 之 threading 模块 


Python 提供 多 线程 编程 的 模块 有 以 下 两 个 。 


@ thread ; 
€ threading . 


其 中 thread 模块 提供 了 低级 别 的 基本 功能 来 支持 多 线程 功能 , 提供 简单 的 锁 来 确保 同步 ， 
推荐 使 用 threading 模块 。threading 模块 对 thread 进行 了 封装 ， 提 供 了 更 高 级 别 ， 功 能 更 强 ， 
更 易于 使 用 的 线程 管理 的 功能 , 对 线程 的 支持 更 为 完善 , 绝 大 多 数 情况 下 ,只 需要 使 用 threading 
这 个 高 级 模块 就 够 了 。 

使 用 threading 进行 多 线程 操作 有 以 下 两 种 方法 。 

方法 一 : 创建 threading.Thread 类 的 实例 ， 调 用 其 start() 方 法 。 

【示例 4-5】 通 过 实例 化 threading.Thread 类 来 创建 线程 (multi thread. 1.py) 。 


1 import time 
2 import threading 
3 


print ( 
f' 线 程 名 称 : {threading.current thread().name) SM: {counter} 开始 时 间 : 
{time.strftime ("SY-%m-%d %H:%M:%S") }" 


4 
5 def task thread(counter): 
6 
W 


8 ) 

3 num = counter 

10 while num: 

dail time.sleep (3) 

12 num -= 1 

m3 print( 

14 f'A&R AW: (threading.current thread().name) 231: (counter) 结束 时 间 : 
{time.strftime ("SY-%m-%d %H:3M:%S") }" 

w ) 

16 

17 

18 if name =s “main ": 

19 print (f' 主 线程 开始 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S")}') 
20 
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3 初始 化 三 个 线程 ， 传 递 不 同 的 参数 


21 
22 
23 
24 
25 
26 
2 
28 
29 
30 
31 
32 
33 
34 


时 间 后 结束 ，start() 方 法 开启 线程 ，join() 方 法 阻塞 主线 程 ， 等 待 当 前 线程 运行 结束 。 运 和 


tl = threading.Thread(target=task thread, args=(3,)) 
threading.Thread(target-task thread, args=(2,)) 
t3 = threading.Thread (target=task thread, args-(1,)) 


E2 


+ 开启 三 个 线程 
tl.start () 
t2.start() 
t3.start () 

+ 等 待 运行 结束 
tl.join() 
t2.join() 
t3.join() 


print (f' 主 线程 结束 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S") }') 


程序 实例 化 了 三 个 Thread 类 的 实例 ， 并 向 任务 函数 传递 不 同 的 参数 ， 使 它们 运行 不 同 的 


如 下 : 


主线 程 开 始 时 间 : 2018-07-06 23:03:46 


线程 名 称 : Thread-1 BR: 3 开始 时 间 : 
线程 名 称 : Thread-2 BR: 2 开始 时 间 : 
线程 名 称 : Thread-3 SR: 1 开始 时 间 : 
线程 名 称 : Thread-3 SR: 1 结束 时 间 : 
线程 名 称 : Thread-2 参数 : 2 结束 时 间 : 
线程 名 称 : Thread-1 参数 : 3 结束 时 间 : 


主线 程 结 束 时 间 : 2018-07-06 23:03:55 
方法 二 : 继承 Thread 类 ， 在 子 类 中 重 写 rn0 和 init() 方 法 
【示例 4-6】 通 过 继承 Thread 类 创建 线程 (multi thread 2.py) 。 


1 import time 
2 import threading 


始 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S") }" 


15 
16 
Ey 
18 
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2018-07-06 
2018-07-06 
2018-07-06 
2018-07-06 
2018-07-06 
2018-07-06 


class MyThread (threading. Thread) : 


def init (self, counter): 


super(). init () 
self.counter = counter 


def run(self): 


print ( 


23: 
23: 
23: 
23: 
23: 
23: 


03: 
03: 
03: 
03: 
03: 
03: 


46 
46 
46 
49 
52 
55 


PAR 


f' 线 程 名 称 : (threading.current thread().name) 参数 : {self.counter} Jf 


) 

counter — self.counter 

while counter: 
time.sleep (3) 
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no counter — 1 

20 print( 

21 f' 线 程 名 称 : (threading.current thread().name} 参数 : {self.counter} 结 
RRJ: (time.strftime("$Y-$m-$d %H:%M:%S") }" 

22 ) 

23 

24 

25 if name =" main ": 

26 print (f' 主 线程 开始 时 间 : {time.strftime ("SY-%m-%d %H:$M:$S") }") 

27 


28 + 初始 化 三 个 线程 ， 传 递 不 同 的 参数 


29 tl = MyThread (3) 
30 t2 = MyThread (2) 
31 t3 = MyThread (1) 
32 + 开启 三 个 线程 

33 tl.start() 

34 t2.start() 

35 t3.start() 

36 + 等 待 运行 结束 

37 t1.join() 

38 t2.join() 

39 t3.join() 

40 

41 print (f' 主 线程 结束 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S") }') 


以 上 程序 自 定义 线程 类 MyThread, 继承 自 threading. Thread, Jf:£ 5j T — init (0) 方法 和 run() 
方法 。 其 中 run() 方 法 相当 于 【示例 4-5】 中 的 任务 函数 ， 运 行 结果 与 【示例 4-5】 中 的 结果 一 
致 。 


主线 程 开始 时 间 : 2018-07-06 23:34:16 

线程 名 称 : Thread-1 SR: 3 开始 时 间 : 2018-07-06 23:34:16 
线程 名 称 : Thread-2 参数 : 2 开始 时 间 : 2018-07-06 23:34:16 
线程 名 称 : Thread-3 参数 : 1 开始 时 间 : 2018-07-06 23:34:16 
线程 名 称 : Thread-3 参数 : 1 结束 时 间 : 2018-07-06 23:34:19 
线程 名 称 : Thread-2 BR: 2 结束 时 间 : 2018-07-06 23:34:22 
线程 名 称 : Thread-1 参数 : 3 结束 时 间 : 2018-07-06 23:34:25 
主线 程 结 束 时 间 : 2018-07-06 23:34:25 


如 果 继 承 Thread 类 ， 想 调用 外 部 传 入 函数 ， 请 看 下 面 的 示例 。 
【示例 4-7】 继 承 Thread 类 如 何 调用 外 部 传 入 函数 multi thread 3.py) 。 


import time 
import threading 


def task thread (counter): 
print (f'A: (threading.current thread().name) 参数 : {counter} 开始 时 间 : 
time.strftime ("SY-%m-%d %H:3M:%S") }") 
num = counter 


OYA DUK WNHE 


while num: 
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9 
10 
TE 


time.sleep (3) 
num -= 1 
print (f' 线 程 名 称 : {threading.current thread () .name} 参数 : {counter} 结束 时 间 : 


(time.strftime("$Y-$m-$d %H:3M:%S") }") 


ive 


以 使 


7 


2 
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class MyThread (threading.Thread): 


if 


def init (self, target, args): 
super (). init () 
self.target = target 
self.args = args 


def run (self): 
self.target (*self.args) 


name ==" main ": 
print (f' 主 线程 开始 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S") }") 


# 初始 化 三 个 线程 ， 传 递 不 同 的 参数 

MyThread (target=task thread, args=(3,)) 
MyThread (target=task thread, args=(2,)) 
t3 = MyThread(target-task thread, args=(1,)) 
# 开启 三 个 线程 

tl.start() 

iE2-start() 

t3.start() 

# 等 待 运行 结束 

tl.join() 

t2.join() 

t3.join() 


print (f' 主 线程 结束 时 间 : (time.strftime("$Y-$m-$d %H:%M:%S") }') 


通过 selftarget 来 接收 外 部 传 入 的 函数 ， 通 过 self.args 来 接收 外 部 函数 的 参数 ， 这 样 就 可 


€ 


继承 Thread 的 线程 类 调用 外 部 传 入 的 函数 ， 原 理 和 方法 一 是 相通 的 ， 运 行 结果 不 变 。 


分. .多 线程 同步 之 Lock (EFH) 


如 果 多 个 线程 共同 对 某 个 数据 修改 , 则 可 能 出 现 不 可 预料 的 结果 , 这 个 时 候 就 需要 使 用 互 
斥 锁 来 进行 同步 。 例 如 ， 在 三 个 线程 对 共同 变量 num 进行 100 万 次 加 减 操作 之 后 ， 其 num 的 
结果 不 为 0。 

【示例 4-8】 不 加 锁 的 意外 情况 Chread no lockpy) 。 


1 import time, threading 
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global num 
for i in range(1000000): 


3 
4 
5 def task thread(n): 
6 
7 
8 num = num + n 


9 num = num - n 
10 
ps Seal threading.Thread(target-task thread, args-(6,)) 


12 t2 - threading.Thread(target-task thread, args-(17,)) 
= threading.Thread(target-task thread, args-(11,)) 
14 tl.start() 
15 t2.start() 
T6 “LS start (() 
17 tl.join() 
18 t2.join() 
19 t3.join() 
20 print (num) 
运行 结果 如 下 : 


=g 


每 次 执行 的 结果 是 随机 的 , 为 0 的 概率 非常 小 , 之 所 以 会 出 现 不 为 0 的 情况 ， 是 因为 这 里 
同时 有 许多 语句 修改 num 的 值 ， 当 一 个 线程 正在 执行 num+tn， 另 一 个 线程 正在 执行 num-m， 
从 而 导致 之 前 的 线程 执行 num-n 时 num 的 值 已 不 是 之 前 的 值 ， 因 此 最 终结 果 不 为 0。 为 了 保 
证 数据 的 正确 性 ,需要 使 用 互 斥 锁 对 多 个 线程 进行 同步 ， 限制 当 一 个 线程 正在 访问 数据 时 ,其 
他 只 能 等 待 , 直到 前 一 线程 释放 锁 。 使 用 threading. Thread 对 象 的 Lock 和 Rlock 可 以 实现 简单 
的 线程 同步 ， 这 两 个 对 象 都 有 acquire 方法 和 release 方法 ， 对 于 那些 每 次 只 允许 一 个 线程 操作 
的 数据 ， 可 以 将 其 操作 放 到 acquire 方法 和 release 方法 之 间 。 


【示例 4-9】 加 互 斥 锁 后 运行 结果 始终 一 致 (thread sync lock.py) o 


import time，threading 


2 
3 num = 0 

4 lock = threading. Lock() 
5 def task thread(n): 

6 global num 

7 获取 锁 ， 用 于 线程 同步 
8 lock.acquire () 


9 for i in range (1000000): 
10 num = num + n 

all num = num - n 

12 EORR, H PTE 

13 lock.release() 

14 


15 tl = threading.Thread(target-task thread, args-(6,)) 
16 t2 - threading.Thread(target-task thread, args-(17,)) 
17 t3 - threading.Thread (target-task thread, args-(11,)) 
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18 tl.start(); t2.start(); t3.start() 
19 t1-join(); t2.jJoin(); t3.join() 
20 print (num) 


无 论 执行 多 少 次 ， 执 行 结果 都 为 : 


^.^. 多 线程 同步 之 Semaphore ( 信号 量 ) 


互 斥 锁 是 只 允许 一 个 线程 访问 共享 数据 ,而 信号 量 是 同时 允许 一 定数 量 的 线程 访问 共享 数 
据 ， 比 如 银行 柜台 有 5 个 窗口 ， 允 许 同时 有 S 个 人 办 理 业务 ， 后 面 的 人 只 能 等 待 ， 待 柜台 有 人 
办 理 完 业务 后 才 可 以 进入 相应 的 柜台 办 理 。 

【示例 4-10】 使 用 信号 量 控制 并 发 (thread_sync_Semaphore.py) 。 


import threading 
import time 


# 同时 只 有 5 个 人 办 理 业 务 
semaphore = threading.BoundedSemaphore (5) 
# 模拟 银行 业务 办 理 
def yewubanli (name): 
semaphore.acquire() 
time.sleep (3) 
10 print(f"(time.strftime('$Y-$m-$d $H:$M:$S')) (name) 正在 办 理 业务 ") 


oNN 


o 


T2 semaphore. release () 


14 thread list = [] 
15 for i in range(12): 


16 t = threading.Thread(target=yewubanli, args=(i,)) 
17 thread list.append (t) 
18 
19 for thread in thread list: 
20 thread.start () 
21 
22 for thread in thread list: 
23 thread.join() 
24 
25 # while threading.active count() != 1: 
26 # time.sleep (1) 
运行 结果 如 下 : 


2018-07-08 12:33:57 4 正在 办 理 业 务 
2018-07-08 12:33:57 1 正在 办 理 业 务 
2018-07-08 12:33:57 3 正在 办 理 业 务 
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2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 
2018-07-08 


ie 
iE: 
12:347 
12:34: 
12:34: 
12:34: 
12:34: 
12:34: 
12:34: 


多 线程 同步 之 Condition 


57 
57 
00 
00 
00 
00 
00 
03 
03 


0 
p 
了 
5 
6 
9 


8 


11 正在 办 理 业 务 
10 正在 办 理 业务 


可 以 看 出 ， 同 一 时 刻 只 有 5 个 人 正在 办 理 业务 ， 即 同一 时 刻 只 有 5 个 线程 获得 
可 以 通过 信号 量 来 控制 多 线程 的 并 发 数 。 


正在 办 理 业务 
正在 办 理 业务 
正在 办 理 业务 
正在 办 理 业 务 
正在 办 理 业 务 
正在 办 理 业 务 
正在 办 理 业务 
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xx 
E 
[zi 
Ji 


条 件 对 象 Condition 能 让 一 个 线程 A 停 下 来 , 等 待 其 他 线程 B, 线程 B 满足 了 某 个 条 件 后 
通知 (notify) 线程 A 继续 运行 。 线 程 首 先 获取 一 个 条 件 变量 锁 ， 如 果 条 件 不 足 ， 则 该 线程 等 
f$ CwaiD 并 释放 条 件 变 量 锁 ; 如 果 条 件 满 足 ， 就 继续 执行 线程 ， 执 行 完成 后 可 以 通知 (notify) 
其 他 状态 为 wait 的 线程 执行 。 其 他 处 于 wait 状态 的 线程 接 到 通知 后 会 重新 判断 条 件 以 确定 是 
和 否 继 续 执行 。 

【示例 4-11】 使 用 条 件 对 象 Condition 同步 多 线程 (thread sync_condition.py) 。 


print (self .name + ": 嫁 给 我 吧 ! ? ") 


(self, cond, name): 


init 


0 


+ 唤醒 一 个 挂 起 的 线程 ， 让 hanmeimei 表态 


1 import threading 

2 

3 class Boy(threading. Thread) : 
4 def init 

5 super(Boy, self). 

6 self.cond = cond 

T self.name = name 

8 

9 def run (self): 

10 self.cond.acquire () 
11 

12 self.cond.notify() 
13 self.cond.wait () 


超时 ， 等 待 hanmeimei 回答 


print(self.name + ": 我 单 膝 下 跪 ， 送 上 戒指 ! ") 
self.cond.notify() 
self.cond.wait () 


print (self.name + ": Li 太太 ， 你 的 选择 太 明智 了 。") 


self.cond.release() 


21 class Girl(threading.Thread): 


22 def init (self, cond, name): 


释放 内 部 所 占用 的 琐 ， 同 时 线程 被 挂 起 ， 直 至 接收 到 通知 被 唤醒 或 
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super (Girl, self). init () 
self.cond = cond 
self.name = name 


def run(self): 
self.cond.acquire () 
self.cond.wait() # $ff Lilei 求婚 
print (self.name + ": 没有 情调 ， 不 够 浪漫 ， 不 答应 ") 
self.cond.notify() 
self.cond.wait () 
print (self.name + ": 好 吧 ， 答 应 你 了 ") 
self.cond.notify() 
self.cond. release () 


cond = threading.Condition () 
boy = Boy(cond, "LiLei") 

girl = Girl(cond, "HanMeiMei") 
girl.start() 

boy.start() 


运行 结果 如 下 : 


Lilei: 嫁 给 我 吧 ! ? 

HanMeiMei: 没有 情调 ， 不 够 浪漫 ， 不 答应 
Lilei: 我 单 膝下 跪 ， 送 上 戒指 ! 
HanMeiMei: 好 吧 ， 答 应 你 了 

LiLei: Li 太太 ， 你 的 选择 太 明 智 了 。 


d 【示例 4-11】〗 程 序 实例 化 了 一 个 Condition xt & cond, 一 个 Boy 31 & boy, 一 个 Girl 对 象 


girl， 程 序 先 启动 了 girl 线程 ，girl 虽然 获取 到 了 条 件 变量 锁 cond， 但 又 执行 了 wait 并 释 
放 条 件 变 量 锁 ， 自 身 进入 阻塞 状态 ; boy 线程 启动 后 ， 就 获得 了 条 件 变 量 锁 cond 并 发 出 
了 消息 ,之 后 通过 notify 唤醒 一 个 挂 起 的 线程 ， 并 释放 条 件 变量 锁 等 待 girl 的 回答 ， 后 面 
的 过 程 都 是 重复 这 些 步 又。 最 后 通过 release 程序 释放 资源 。 


4.6 多 线程 同步 之 Event 


事件 用 于 线程 之 间 的 通信 。 一 个 线程 发 出 一 个 信号 , 其 他 一 个 或 多 个 线程 等 待 , 调 


Event 


对 象 的 wait 方法 ， 线 程 则 会 阻塞 等 待 ， 直 到 别 的 线程 set 之 后 才 会 被 唤醒 。 


【示例 4-12】 使 用 Event 实现 多 线程 同步 (thread sync Eventpy) 。 


1 import threading, time 
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4 class Boy(threading. Thread) : 

5 def init (self, cond, name): 
6 super (Boy, self). init () 
7 self.cond = cond 

8 self.name = name 

9 


10 def run(self): 

11 print (self.name + ": RARE! ? ") 

12 self.cond.set() # 唤醒 一 个 挂 起 的 线程 ， 让 hanmeimei 表态 
"Us time.sleep (0.5) 

14 self.cond.wait() 

15 print(self.name + ": 我 单 膝 下 跪 ， 送 上 戒指 ! ") 

16 self.cond.set() 

ET time.sleep (0.5) 

18 self.cond.wait () 

19 self.cond.clear() 

20 print(self.name + ": Li 太太， 你 的 选择 太 明智 了 。") 
21 

22 

23 class Girl (threading.Thread) : 

24 def init (self, cond, name): 

25) super(Girl, self). init () 

26 self.cond = cond 

27 self.name = name 

28 

29 def run(self): 

30 self.cond.wait() # “ff Lilei 求婚 

Sa self.cond.clear() 

32 print(self.name + ": 没有 情调 ， 不 够 浪漫 ， 不 答应 ") 
33 self.cond.set() 

34 time.sleep (0.5) 

35 self.cond.wait () 

36 print(self.name + ": 好 吧 ， 答 应 你 了 ") 

37 self.cond.set() 

38 

39 


40 cond - threading.Event () 

41 boy - Boy(cond, "LiLei") 

42 girl - Girl(cond, "HanMeiMei") 
43 boy.start() 

44 girl.start() 


运行 结果 如 下 : 


LiLei: BARE! ? 

HanMeiMei: 没有 情调 ， 不 够 浪漫 ， 不 答应 
HanMeiMei: 好 吧 ， 答 应 你 了 

LiLei: 我 单 膝 下 跪 ， 送 上 戒指 ! 

LiLei: Li 太太， 你 的 选择 太 明智 了 
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Em Event 内 部 默认 内 置 了 一 个 标志 ， 初 始 值 为 False。 上 述 代码 中 对 象 gid 通过 wait0 方 法 进 
| 入 等 待 状态 ， 直 到 对 象 boy 调用 该 Event 的 st F ZHAN BASLE A True H, 对象 girl 


再 继续 运行 。 对 象 boy 最 后 调用 Event 的 clear0 方 法 再 将 内 置 标志 设置 为 False, 恢复 初始 


£o /线程 优先 级 队列 ( queue ) 


Python 的 queue 模块 中 提供 了 同步 的 、 线 程 安全 的 队列 类 ， 包括 先进 先 出 队列 Queue, Ja 
进 先 出 队列 LifoQueue 和 优先 级 队列 PriorityQueue。 这 些 队列 都 实现 了 锁 原 语 ， 可 以 直接 使 用 
来 实现 线程 之 间 的 同步 。 

举 一 个 简单 的 例子 ， 有 一 小 冰箱 用 来 存放 冷饮 , 假如 只 能 放 5 JG Do. A 不 停 地 往 冰 箱 放 
冷饮 ，B 不 停 地 从 冰箱 里 取 冷饮 ，A 和 B 的 放 取 速度 可 能 不 一 致 ， 如 何 保持 他 们 的 同步 呢 ? 
这 时 队列 就 派 上 用 场 了 。 


【示例 4-13】 生产 者 消费 者 模式 实例 (thread_queue.py) 。 


1 import threading, time 

2 

3 import queue 

4 

S 

6 间 先 进 先 出 

7 q = queue.Queue (maxsize=5) 

8 #q = queue. LifoQueue (maxsize-3) 

9 #q = queue. PriorityQueue (maxsize-3) 
10 

11 def ProducerA(): 

12 count = 1 

13 while True: 

14 q.-put (f" 冷 饮 (count)") 

15 print (f"{time.strftime ('$H:3M:%S')} A 放 入 : [冷饮 {count}]") 
16 count +=1 

17 time.sleep (1) 

18 

19 def ConsumerB(): 

20 while True: 

21 print(f"(time.strftime('$H:$M:$S')) B 取出 [{q.get()}]") 
22 time.sleep (5) 

23 


24 p = threading. Thread (target=ProducerA) 
25 c = threading. Thread (target=ConsumerB) 
26 c.start() 
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27 pestart() 

运行 结果 如 下 : 
16:29:19 A 放 入 : [冷饮 1] 
16:29:19 B 取出 [冷饮 1 
16:29:20 A 放 入 : [冷饮 2] 
16:29:21 A 放 入 : [冷饮 3] 
16:29:22 A 放 入 : [冷饮 4] 
16:29:23 A WMA: [冷饮 5] 
16:29:24 B 取出 [冷饮 2 
16:29:24 A WMA: [冷饮 6] 
16:29:25 A WMA: [冷饮 7] 
16:29:29 B 取出 [冷饮 3 
16:29:29 A 放 入 : [冷饮 8] 
16:29:34 B 取出 [冷饮 4 
16:29:34 A 放 入 : [冷饮 9] 

以 上 代码 是 实现 生产 者 和 消费 者 模型 的 一 个 比较 简单 的 例子 。 在 并 发 编程 中 , 使 用 生产 者 
和 消费 者 模式 能 够 解决 绝 大 多 数 并 发 问题 。 如 果 生 产 者 处 理 速度 很 快 , 而 消费 者 处 理 速度 很 慢 ， 
那么 生产 者 就 必须 等 待 消费 者 处 理 完 ， 才 能 继续 生产 数据 。 同 样 的 道理 ， 如 果 消 费 者 的 处 理 能 
力 大 于 生产 者 , 那么 消费 者 就 必须 等 待 生 产 者 。 为 了 解决 这 个 问题 , 于 是 引入 了 生产 者 和 消费 
者 模式 ， 如 图 4.2 所 示 。 


图 4.2 生产 者 和 消费 者 模式 
生产 者 和 消费 者 模式 是 通过 一 个 容器 (队列 ) 来 解决 生产 者 和 消费 者 的 强 耦 合 问题 。 因 为 
生产 者 和 消费 者 彼此 之 间 不 直接 通信 , 而 是 通过 阻塞 队列 来 进行 通信 , 所 以 生产 者 生产 完 数据 
之 后 不 用 等 待 消费 者 处 理 , 可 直接 扔 给 阻塞 队列 ,消费 者 不 找 生 产 者 要 数据 ,而 是 直接 从 阻塞 
队列 中 取 。 阻 塞 队列 就 相当 于 一 个 缓冲 区 ， 平 衡 了 生产 者 和 消费 者 的 处 理 能 力 。 


外 .已 ”多 线程 之 线程 池 pool 


在 面向 对 象 编程 中 , 创建 和 销毁 对 象 是 很 费时 间 的 , 因为 创建 一 个 对 象 要 获取 内 存 资 源 或 
其 他 更 多 资源 。 虚 拟 机 也 将 试图 跟踪 每 一 个 对 象 ， 以 便 能 够 在 对 象 销毁 后 进行 垃圾 回收 。 同 样 
的 道理 ， 多 任务 情况 下 每 次 都 会 生成 一 个 新 线程 ， 执 行 任务 后 资源 再 被 回收 就 显得 非常 低 效 ， 
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因此 线程 池 就 是 解决 这 个 问题 的 办 法 。 类 似 的 还 有 连接 池 、 进 程 池 等 。 


将 任务 添加 到 线程 池 中 , 线程 池 会 自动 指定 一 个 空闲 的 线程 去 执行 任务 ， 当 超过 线程 池 的 


最 大 线程 数 时 ， 任 务 需 要 等 待 有 新 的 空闲 线程 后 才 会 被 执行 。 


我 们 可 以 使 用 threading 模块 及 queue 模块 定制 线程 池 ， 也 可 以 使 用 multiprocessing. from 


multiprocessing import Pool 这 样 导 入 的 Pool 表示 的 是 进程 池 ，from mnultiprocessing.dummy 
import Pool 这 样 导 入 的 Pool 表示 的 是 线程 池 。 


【示例 4-14] 线程 池 实 例 (thread poolpy) 。 


1 from multiprocessing.dummy import Pool as ThreadPool 
2 import time 


4 
5 def fun(n): 
6 
a 


time.sleep (2) 


9 start = time.time() 


for i in range (5): 
fun (i) 


print (" 单 线程 顺序 执行 耗 时 :"，time.time () - start) 


start2 = time.time() 

# 开 8 个 worker， 没 有 参数 时 默认 是 cpu 的 核心 数 

pool = ThreadPool (processes=5) 

# 在 线程 中 执行 urllib2.urlopen(url) 并 返回 执行 结果 
results2 = pool.map(fun, range (5) ) 

pool.close() 

pool.join() 

print (" 线 程 池 (5) 并 发 执行 耗 时 :"，time.time() - start2) 


上 述 代码 模拟 一 个 耗 时 2 秒 的 任务 ， 比 较 其 顺序 执行 5 次 和 线程 池 〈 并 发 数 为 5) 执行 的 


耗 时 。 运 行 结果 如 下 : 


单线 程 顺序 执行 耗 时 : 10.002546310424805 
线程 池 〈5) 并 发 执行 耗 时 : 2.023442268371582 


Es 


显然 并 发 执行 效率 更 高 ， 接 近 单 次 执行 的 时 间 。 
总 结 : Python 多 线程 适合 用 在 VO 密集 型 任务 中 。 IO 密集 型 任务 较 少 时 间 用 在 CPU 计算 
较 多 时 间 用 在 VO 上 ， 如 文件 读 写 、Web 请 求 、 数 据 库 请 求 等 ， 而 对 于 计算 密集 型 任务 ， 


应 该 使 用 多 进程 。 
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协 程 是 轻 量 级 线程 , 拥有 自己 的 寄存 器 上 下 文 和 栈 。 协 程 调度 切换 时 , 将 寄存 器 上 下 文 和 
栈 保存 到 其 他 地 方 ， 在 切 回来 时 ， 恢 复 先前 保存 的 寄存 器 上 下 文 和 栈 。 因 此 ， 协 程 能 保留 上 一 
次 调用 时 的 状态 , 即 所 有 局 部 状态 的 一 个 特定 组 合 , 每 次 过 程 重 入 时 , 就 相当 于 进入 上 一 次 调 
用 的 状态 。 

协 程 的 应 用 场景 :LO 密集 型 任务 。 这 一 点 与 多 线程 有 些 类 似 ,但 协 程 调用 是 在 一 个 线程 
内 进行 的 ， 是 单线 程 ， 切 换 的 开销 小 ， 因 此 效率 上 略 高 于 多 线程 。 当 程序 在 执行 IO 操作 时 ， 
CPU 是 空闲 的 ， 可 以 充分 利用 CPU 的 时 间 片 来 处 理 其 他 任务 。 在 单线 程 中 ， 一 个 函数 调用 ， 
一 般 是 从 函数 的 第 一 行 代 码 开始 执行 ， 结 束 于 retum 语句 、 异 常 或 函数 执行 (也 可 以 认为 是 隐 
式 地 返回 了 None . 有 了 协 程 ,我 们 在 函数 的 执行 过 程 中 ， 如 果 遇 到 了 耗 时 的 VO RE, K 
数 就 可 以 临时 让 出 控制 权 ， 让 CPU 执行 其 他 函数 ， 等 IO 操作 执行 完毕 后 再 收回 控制 权 。 


5.) syne 


Python 3.4 加 入 了 协 程 的 概念 ， 以 生成 器 对 象 为 基础 ， 在 Python 3.5 增加 了 async/await, 
使 得 协 程 的 实现 更 加 方便 .Python 中 使 用 协 程 比 较 常 用 的 库 莫 过 于 asyncio, 下 面 我 们 以 asyncio 
为 基础 介绍 协 程 的 使 用 。 

先 来 看 一 个 简单 的 例子 。 


【示例 5-1】 协 程 示 例 1 (coroutine0.py) 。 


print (f"{time.strftime ('%H:%M:%S')} task 开始 ") 
time.sleep (2) 


3 
4 

5 async def task(): 

6 

7 

8 print (£"{time.strftime('SH:3M:%S')} task 结束 ") 
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11 coroutine = task() 

12 print (£"{time.strftime ('SH:3M:3S')} 产生 协 程 对 象 {coroutine}, 函数 并 未 被 调用 ") 
13 loop = asyncio.get event loop() 

14 print (£"{time.strftime ('SH:3M:%S')} 开始 调用 协 程 任务 ") 

15 start = time.time() 

16 loop.run until complete (coroutine) 

17 end - time.time() 

18 print (£"{time.strftime ('SH:3M:%S')} 结束 调用 协 程 任务 ， 耗 时 {fend - start) f") 


运行 结果 如 下 : 
22:34:06 产生 协 程 对 象 <coroutine object task at 0x0000025B8CE62200>, 函数 并 未 被 调用 
22:34:06 开始 调用 协 程 任务 
22:34:06 task 开始 
22:34:08 task 结束 
22:34:08 结束 调用 协 程 任务 ， 耗 时 2.015564203262329 秒 


首先 引入 asyncio， 这 样 才 可 以 使 用 async 和 await 关键 字 (async 定义 一 个 协 程 ，await 用 
于 临时 挂 起 一 个 函数 或 方法 的 执行 ) ， 接 着 使 用 async 定义 一 协 程 方法 ， 然 后 直接 调用 该 
方法 , 但 是 该 方法 并 没有 执行 , 而 是 返回 了 一 个 coroutine 协 程 对 象 。 使 用 get event loop) 
方法 创建 一 个 事件 循环 loop, 并 调用 loop xt KAY run. until. complete0 方 法 将 协 程 注册 到 事 
件 循环 loop 中 ， 然 后 启动 ， 最 后 才 看 到 task 方法 打印 了 输出 结果 。 

async 定义 的 方法 无 法 直接 执行 ， 必 须 将 其 注册 到 事件 循环 中 才 可 以 执行 。 


我 们 还 可 以 为 任务 绑 定 回调 函数 。 
【示例 5-2 】 协 程 示例 2 〈coroutinel.py) 。 


1 import asyncio 
2 import time 


4 
5 async def task(): 
6 print(f"(time.strftime('$H:2M:$S')) task 开始 ") 
7 time.sleep (2) 
8 print(f"(time.strftime('$H:2M:$S')) task 结束 ") 


9 return "运行 结束 " 

10 

11 

12 def callback(task): 

13 print (f"{time.strftime ('%H:3M:%S"')} 回调 函数 开始 运行 ") 
14 print (f" 状 态 : (task.result())") 

15 

16 

17 coroutine = task() 


18 print (£"{time.strftime ('SH:3M:3S')} 产生 协 程 对 象 {coroutine}, 函数 并 未 被 调用 ") 
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19 task = asyncio.ensure future (Coroutine) 

20 task.add done callback (callback) 

21 loop = asyncio.get event loop() 

22 print (£"{time.strftime ('%H:3M:3S")} 开始 调用 协 程 任务 ") 

23 start = time.time() 

24 loop.run until complete (task) 

25 end = time.time() 

26 print(f"{time.strftime('%H:%M:%S')} 结束 调用 协 程 任务 ， 耗 时 {fend - start} #") 


代码 运行 结果 如 下 : 


23:01:11 产生 协 程 对 象 <coroutine object task at 0x000002B84B2A11A8», 函数 并 未 被 调用 
23:01:11 开始 调用 协 程 任务 

23:01:11 task 开始 

23:01:13 task 结束 

23:01:13 回调 函数 开始 运行 

状态 : 运行 结束 

23:01:13 结束 调用 协 程 任务 ， 耗 时 2.0018696784973145 fh 


E 在 这 里 我 们 定义 了 一 个 协 程 方法 和 一 个 普通 方法 作为 回调 函数 , 协 程 方法 执行 后 返回 一 个 
字符 串 ' 运 行 束 '。 其 中 回调 函数 接收 一 个 参数 ， 是 task 对 象 ， 然 后 调用 print0 方 法 打印 了 
task 对 象 的 结果 。asyncio.ensure _ future(coroutine) 可 以 返回 task 对 象 ，add_done_callbackO 
为 task 对 象 增加 一 个 回调 任务 。 这 样 我 们 就 定义 好 了 一 个 coroutine 对 象 和 一 个 回调 方法 ， 
执行 的 结果 是 当 coroutine 对 象 执行 完毕 之 后 ， 就 去 执行 声明 的 callback0 方 法 。 


5.2 并 发 


在 前 面 的 例子 中 , 我 们 只 执行 了 一 个 协 程 任务 ,如果 需要 执行 多 次 并 尽 可 能 地 提高 效率 该 
怎么 办 呢 ? 我 们 可 以 定义 一 个 task 列表 ， 然 后 使 用 asyncio 的 wait() 方 法 执行 即 可 ， 看 下 面 的 
例子 。 


【示例 5-3 】 协 程 示例 3 〈coroutine2.py) 。 


1 import asyncio 

2 import time 

3 

4 async def task(): 


5 print (£"{time.strftime('%H:%M:%S')} task 开始 ") 
6 + 异步 调用 asyncio.sleep (1) : 

7 await asyncio.sleep (2) 

8 #time.sleep (2) 

9 print(f"(time.strftime('$H:2M:$S')) task 结束 " ) 
10 


11 4 获取 EventLoop: 
12 loop = asyncio.get_event_loop() 
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BUS 
14 
IUS 
16 
alg 
18 
19 


# 执行 coroutine 
tasks = 


运行 结果 如 下 : 


23:25:28 
23:25:25 
23:25:25 
23:25:25 
23:25:25 
23:25:27 
39:95:21 
29:95:27 
23:28:27 
93:25:27 
用 时 2.0225257873535156 fh 


首先 定义 一 个 协 程 任务 函数 ， 模 拟 耗 时 2 秒 的 任务 ， 这 里 我 们 使 用 了 await 关键 字 ， 根 据 
官方 文档 说 明 ，await 后 面 的 对 象 必须 是 如 下 类 型 之 一 。 


一 个 原生 coroutine 对 象 。 
一 个 由 types.coroutine() 修 饰 的 生成 器 ， 这 个 生成 器 可 以 返回 coroutine 对 象 。 
一 个 包含 await 方法 的 对 象 返回 的 一 个 迭代 器 。 


asyncio.sleep (2) 是 一 个 由 coroutine 修饰 的 生成 器 函数 ， 表 示 等 待 2 秒 。 接 下 来 我 们 定 


义 了 一 个 列表 tasks, H 


task 开始 
task 开始 
task 开始 
task 开始 
task 开始 
task 结束 
task 结束 
task 结束 
task 结束 
task 结束 


[task() for in range (5) ] 

start = time.time() 

loop.run until complete (asyncio.wait (tasks) ) 
loop.close() 
end = time.time() 

print (f" 用 时 (end-start) #") 


5 个 task0) 组 成 ， 最 后 使 用 loop.run until complete(asyncio.wait(tasks)) 


提交 执行 , 即 5 个 任务 并 发 执行 耗 时 接近 于 单个 任务 的 耗 时 ,这 里 并 没有 使 用 多 进程 或 多 线 
程 ， 从 而 实现 了 并 发 操作 。task 可 以 蔡 换 为 任意 耗 时 较 高 的 1O 操作 函数 。 


5.3 ser 


前 述 的 定义 协 程 及 并 发 编程 似乎 与 多 线程 编程 相 比 更 加 复杂 : 需要 定义 协 程 函数 ， 使 用 


async、await 等 关键 字 ， 还 要 掌握 await 后 面 必须 是 哪些 对 象 等 。 这 些 复 杂 的 操作 都 是 为 具体 
的 高 效应 用 做 铺垫 ， 接 下 来 我 们 看 一 下 协 程 在 IO 密集 型 任务 中 具有 怎样 的 优势 。 

我 们 以 常用 的 网 络 请 求 场景 为 例 ,网 络 请 求 较 多 的 应 用 就 是 IO 密集 型 任务 。 首 先 需要 建 
立 一 个 服务 器 来 响应 Web 请 求 ， 为 方便 演示 ， 我 们 使 用 轻 量 级 的 Web 框架 Flask 来 建立 一 个 
服务 器 。 


【示例 5-4】 启 动 一 个 简单 的 Web 服务 器 (coroutine flask demo) . 
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1 from flask import Flask 

2 import time 

3 

4 app = Flask( name ) 

5 

6 @app.route('/') 

7 def index(): 

8 time.sleep (3) 

9 return ' Hello World!'' 
10 

11 if name = ' main ': 
12 app.run(threaded-True) 


在 上 述 代码 中 ,我 们 定义 了 一 个 Flask 服务 , 主 入 口 是 index) 方法 ,方法 中 先 调用 了 sleep) 
方法 休眠 3 秒 ， 然 后 返回 结果 。 也 就 是 说 ， 每 次 请 求 这 个 接口 至 少 要 耗 时 3 秒 ， 这 样 我 们 就 
模拟 了 一 个 慢 速 的 服务 接口 。 注 意 , 服务 启动 时 , run() 方 法 添加 了 一 个 参数 threaded, 表明 Flask 
启动 了 多 线程 模式 ， 和 否则 默认 是 只 有 一 个 线程 的 。 如 果 不 开 启 多 线程 模式 ， 那 么 同一 时 刻 遇 到 
多 个 请 求 时 ， 只 能 顺 次 处 理 ， 这 样 即 使 我 们 使 用 协 程 异 步 请 求 了 这 个 服务 ， 也 只 能 一 个 个 排队 
等 待 ， 瓶 颈 就 会 出 现在 服务 端 。 所 以 ， 多 线程 模式 是 有 必要 打开 的 。 

运行 结果 如 下 : 

* Serving Flask app "coroutine flask demo" (lazy loading) 

* Environment: production 
WARNING: Do not use the development server in a production environment. 
Use a production WSGI server instead. 

* Debug mode: off 

* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit) 

我 们 打开 浏览 器 ， 在 地 址 栏 中 输入 http:/127.0.0.1:5000/ 并 按 Enter 键 ，3 秒 后 会 看 到 如 图 
5.1 所 示 的 页 面 。 


NS Q | © 127.0.0.1:5000 


Hello World! 


图 5.1 服务 器 响应 结果 
接 下 来 我 们 编写 请 求 程序 。 
【示例 5-5] 5:25 VO 请 求实 例 1 (coroutine flask request0.py) 。 


import asyncio 
import requests 
import time 


start = time.time() 


- oO CQ) Qn 


async def request (): 
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8 url = 'http://127.0.0.1:5000' 

9 print (f' {time.strftime ("SH:3M:%S")} 请 求 {url}') 

10 response = requests.get (url) 

m print(f'(time.strftime("$H:$M:$S")) 得 到 响应 {response.text}') 
12 


13 tasks = [asyncio.ensure future(request()) for in range (5) ] 
14 loop = asyncio.get event loop() 
15 loop.run until complete (asyncio.wait (tasks) ) 


17 end = time.time() 
18 print(f' 耗 时 {end - start} #') 

在 这 里 我 们 创建 了 5 个 task， 然 后 将 task 列表 传 给 wait() 方 法 并 注册 到 时 间 循 环 中 执行 。 

运行 结果 如 下 : 
21:32:32 请 求 http://127.0.0.1:5000 
21:32:35 得 到 响应 Hello World! 
21:32:35 请 求 http://127.0.0.1:5000 
21:32:38 得 到 响应 Hello World! 
21:32:38 请 求 http://127.0.0.1:5000 
21:32:41 得 到 响应 Hello World! 
21:32:41 WR http://127.0.0.1:5000 
21:32:44 得 到 响应 Hello World! 
21:32:44 请 求 http://127.0.0.1:5000 
21:32:47 得 到 响应 Hello World! 
耗 时 15.100058555603027 秒 

通过 运行 结果 我 们 发 现 与 正常 的 顺 次 执行 没有 区 别 ， 耗 时 15 秒 ， 平 均一 个 请 求 耗 时 3 
秒 , 但 并 未 达到 我 们 预期 的 要 求 。 其实 要 实现 异步 处 理 ， 必 须 先 有 挂 起 的 操作 ， 当 一 个 任务 需 
要 等 待 IO 结果 时 ， 可 以 挂 起 当前 任务 ， 让 出 CPU 的 控制 权 ， 转 而 去 执行 其 他 任务 ， 这 样 我 
们 才能 充分 利用 好 资源 。 因为 上 面 的 方法 都 是 串 行走 下 来 , 没有 实现 挂 起 , 所 以 无 法 满足 异步 
并 发 请 求 。 

要 实现 异步 ， 我 们 可 以 使 用 await 将 耗 时 等 待 的 操作 挂 起 让 出 控制 权 。 当 协 程 执行 时 遇 

到 await， 时 间 循 环 就 会 将 本 协 程 挂 起 ， 转 而 去 执行 别 的 协 程 ， 直 到 其 他 的 协 程 挂 起 或 执行 完 
HE. BR 5.2 节 中 await 后 必须 跟 的 对 象 类 型 ， 我 们 修改 一 下 代码 。 


【示例 5-61 5125 VO 请 求实 例 2 Ccoroutine flask requestl.py) 。 


import asyncio 
import requests 
import time 


"m 
2 
3 
4 
3 
6 async def get (url): 

了 return requests.get (url) 

8 

D 

10 async def request(): 

11 url — "http://127.0.0.1:5000" 
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12 
13 
14 
15 
16 
17 
18 
T9 
20 
21 
22 


print(f'(time.strftime("$H:2M:$S")] 请 求 {url}') 
response = await get (url) 
print (f'{time.strftime ("SH:3M:%S") } 得 到 响应 {response.text}") 


start = time.time() 

tasks = [asyncio.ensure future(request()) for in range (5) ] 
loop = asyncio.get event loop() 

loop.run until complete (asyncio.wait (tasks) ) 

end = time.time() 

print (f" 耗 时 (end - start) fb") 


上 述 代 码 将 请 求 页 面 的 方法 封装 成 一 个 coroutine WR, E request 方法 中 尝试 使 用 await 


挂 起 当前 执行 的 IJ0。 运 行 结果 如 下 : 


22: 


22 
22 


22 


33:35 请 求 http://127.0.0.1:5000 


:33:38 得 到 响应 Hello World! 

:33:38 请 求 http://127.0.0.1:5000 
20 
223 
225 
227 
223 
222 
:33:50 得 到 响应 Hello World! 


33:41 得 到 响应 Hello World! 
33:41 请 求 http://127.0.0.1:5000 
:44 得 到 响应 Hello World! 

:44 请 求 http://127.0.0.1:5000 
33:47 得 到 响应 Hello World! 
33:47 请 求 http://127.0.0.1:5000 


耗 时 15.123773097991943 秒 


可 见 上 述 的 改动 并 未 达到 预期 的 并 发 效果 ， 究 其 原因 ，request 不 是 异步 请 求 ， 无 论 如 何 


改 封 装 都 无 济 于 事 。 因 此 ， 我 们 需要 寻找 真正 的 异步 IO 请 求 ，aiohttp 是 一 个 支持 异步 请 求 的 


库 ， 利 用 它 和 anyncio 配合 ， 即 可 实现 异步 请 求 操作 。 
【示例 5-7] F VO 请 求实 例 3 Ccoroutine flask request3.py) ， 使 用 aiohttp 库 来 实现 异 

步 请 求 。 

1 import asyncio 

2 import aiohttp 

3 import time 

4 

5 now = lambda: time.strftime ("$H:$M:$S") 

6 

F 

8 async def get (url): 

9 session = aiohttp.ClientSession () 

10 response = await session.get (url) 

11 result = await response.text () 

T2 session.close() 

13 return result 

14 

15 

16 async def request (): 
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url = "http://127.0.0.1:5000" 


print (f"{now()} 请 求 {url}") 
result = await get (url) 


print (£"{now()} 得 到 响应 {result}") 


23 start = time.time() 


24 tasks = [asyncio.ensure future(request()) for 
25 loop = asyncio.get event loop() 
26 loop.run until complete (asyncio.wait (tasks) ) 


28 end = time.time() 


29 print (f" 耗 时 ( end - start } #") 


in range (5) ] 


通过 aiohttp 的 ClientSession 类 的 get() 方 法 进行 请 求 。 运 行 结 果 如 下 : 


22:49: 
22:49: 
22:49: 
22749: 
22:49: 
22:49: 
22:49: 
22:49: 
22:49: 
22:49: 


上 。 


36 请 求 nttp://127. 
36 请 求 nttp://127. 
36 请 求 http://127. 
36 请 求 nttp://127. 
36 请 求 nttp://127. 


0 
0 
0 
0 


0 


-0.1:5000 
-0.1:5000 
-0.1:5000 
-0.1:5000 
-0.1:5000 


39 得 到 响应 Hello World! 
39 得 到 响应 Hello World! 
39 得 到 响应 Hello World! 
39 得 到 响应 Hello World! 
39 得 到 响应 Hello World! 
耗 时 3.0485894680023193 秒 

运行 结果 符合 异常 请 求 ， 耗 时 由 15 秒 变 成 了 3 秒 ， 即 原来 的 1/5， 实 现 了 并 发 访问 。 代 
码 中 我 们 使 用 了 await， 后 面 跟 了 get0 方 法 ,在 执行 这 5 个 协 程 的 时 候 ， 如 果 遇 到 await， 就 会 
将 当前 协 程 挂 起 ， 转 而 去 执行 其 他 的 协 程 ， 直 到 其 他 的 协 程 也 挂 起 或 执行 完毕 ， 再 进行 下 一 个 
协 程 的 执行 。 异步 操作 的 便捷 之 处 是 ， 当 遇 到 阻塞 式 操 作 时 ,任务 被 挂 起 ,程序 接着 去 执行 其 
他 的 任务 , 而 不 是 傻 傻 地 等 着 , 这 样 就 可 以 充分 利用 CPU 时 间 , 而 不 必 把 时 间 浪 费 在 等 待 IO 


在 发 出 网 络 请 求 后 的 3 A, CPU 都 是 空闲 的 ， 那 么 增加 协 程 任务 的 数量 ， 最 终 的 耗 时 


还 会 是 3 秒 吗 ? H 


E 论 来 说 确实 是 这 样 的 , 不 过 有 一 个 前 提 , 那 就 是 服务 器 在 同一 时 刻 接受 无 限 


次 请 求 都 能 保证 正常 返回 结果 ， 也 就 是 服务 器 无 限 抗 压 ， 另 外 还 要 忽略 VO 传输 时 延 。 我 们 可 


以 将 上 述 的 各 


最 终 的 耗 时 如 下 : 
耗 时 3.7431812286376953 秒 


运行 时 间 也 是 在 3 秒 左 右 ， 当 然 多 出 来 的 时 间 就 是 IO 时 延 了 。 可 见 ， 使 用 


后 ， 几 乎 可 以 在 相同 的 时 间 内 实现 成 百 上 千 倍 次 的 网 络 请 求 ， 把 这 个 技术 运用 在 礁 虫 项 目 中 ， 


速度 提升 可 谓 是 非常 可 观 了 。 
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E 务 数 扩 大 20 倍 ， 如 下 : 


tasks = [asyncio.ensure future (request () ) for 


in range (100) ] 


了 异步 协 程 之 
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自动 化 运 维 工具 Ansible 


Ansible 是 一 款 强大 


的 配置 管理 工具 ， 目 的 是 帮助 系统 管理 员 高 效率 地 管理 成 百 上 千 台 主 


机 。 设 想 一 个 主机 是 一 个 士兵 ， 那 么 有 了 Ansible， 作 为 系统 管理 员 的 你 就 是 一 个 将 领 ， 你 可 


以 通过 口头 命令 ， 即 以 
部 的 士兵 按 你 的 指令 行 导 
照 你 写 好 的 指令 执行 。 


-次 下 发 一 条 命令 (ansible ad-hoc 模式 ) 的 方式 使 一 个 或 多 个 甚至 全 
大 ， 也 可 以 将 多 条 命令 写 在 纸 上 Cansible playbook 模式 ) ， 让 士兵 按 


你 可 以 让 多 个 士兵 同时 做 相同 或 不 同 的 事情 , 也 可 以 方便 地 让 新 加 入 的 


ge 入 已 有 的 兵种 队伍 ， 还 可 以 快速 改变 兵种 (配置 管理 ) ， 一 句 话 ， 土 兵 都 严格 听 你 
， 你 只 要 做 好 命令 的 设计 ，Ansible 就 会 自动 帮 你 发 布 和 执行 。 


我 们 只 需要 在 一 台 忆 


Las (JS UNIX 系统 ) 上 安装 Ansible， 即 可 在 这 台 机 器 上 管理 其 他 主 


机 ，Ansible 使 用 SSH 协议 与 被 管理 的 主机 通信 ， 只 要 SSH 能 连接 这 些 主机 ，Ansible 便 可 以 


控制 它们 ， 被 管理 的 主机 


1 不 需要 安装 Ansible。Ansible 也 支持 Windows， 后 面 会 详细 介绍 。 


Ansible 安装 


Ansible 的 安装 非常 简单 ， 有 以 下 几 种 方法 。 


a) 使 用 pip 安装 。 
pip 是 Python 的 包 管 理工 具 , 使 用 起 来 非常 方便 , 只 要 操作 系统 安装 有 pip, 直接 pip install 


包 名 即 可 。 安 装 Ansible 


pip install ansible 


的 方法 如 下 : 


(2) 使 用 apt-get 安装 。 
在 基于 Debian/Ubuntu Linux 的 系统 中 使 用 apt-get 安装 Ansible。 


sudo apt-get install 


software-properties-common 


sudo apt-add-repository ppa:ansible/ansible 


sudo apt-get update 
sudo apt-get install 


ansible 
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(3) 使 用 yum 安装 。 
在 基于 RHEL/CentOS Linux 的 系统 中 使 用 yum 安装 Ansible。 
sudo yum install ansible 


(4) 使 用 源 代码 安装 。 
可 以 从 Github 上 安装 最 新 版 本 。 


ed = 


git clone git://github.com/ansible/ansible.git 
cd ./ansible 
source ./hacking/env-setup 


6.2 ansible B2 


Ansible 的 配置 文件 有 多 个 位 置 ， 查 找 顺 序 如 下 : 


UNBE 


. 环境 变量 ANSIBLE CONFIG 所 指向 的 位 置 。 
. 当前 目录 下 的 ansible.cfg. 

. HOME 目录 下 的 配置 文件 ~/ -ansible.cfg。 
. /etc/ansible/ansible.cfg. 


在 大 多 数 场景 下 默认 的 配置 就 能 满足 大 多 数 用 户 的 需求 。 在 一 些 特殊 场景 下 , 用 户 还 需要 
自行 修改 这 些 配置 文件 ， 安 装 后 如 果 没 有 在 上 述 三 个 位 置 找到 配置 文件 ， 那 么 在 HOME 目录 
新 建 一 个 .ansible.cfg 文件 即 可 。 

Ansible 常见 的 配置 参数 如 下 。 


inventory = ~/ansible hosts: 表示 主机 清单 inventory 文件 的 位 置 。 

forks=5 : 并 发 连接 数 ， 默 认为 5。 

sudo_user=root: 设置 默认 执行 命令 的 用 户 。 

remote port = 22: 指定 连接 被 管 节点 的 管理 端口 ， 默 认为 22 端口 。 建 议 修改 ， 能 
更 加 安全 。 

host_key_checking = False : 设置 是 否 检查 SSH 主机 的 密 钥 ， 值 为 True/False。 关 闭 
后 第 一 次 连接 不 会 提示 配置 实例 。 

timeout = 60: 设置 SSH 连接 的 超时 时 间 ， 单 位 为 秒 。 

log path = /var/log/ansible.log : 指定 一 个 存储 Ansible 日 志 的 文件 ( 默认 不 记录 日 志 )。 


其 中 参数 的 取 值 范围 及 更 加 详细 的 配置 请 参考 官方 文档 : 
https://raw.githubusercontent.com/ansible/ansible/devel/examples/ansible.cfg. 
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6 e 3 inventory 文件 


Ansible 可 同时 操作 属于 一 个 组 的 多 台 主 机 ， 是 通过 inventory 文件 配置 来 实现 的 ， 组 与 主 
机 的 关系 也 是 由 inventory 来 定义 的 。 默 认 inventory 文件 路 径 为 /etc/ansible/hosts， 我 们 也 可 以 
通过 Ansible 的 配置 文件 来 指定 inventory 文件 位 置 . 除 默认 文件 外 ,可 以 同时 使 用 多 个 inventory 
文件 ， 也 可 以 从 动态 源 或 云 上 拉 取 inventory 配置 信息 。 

一 个 简单 的 inventory 文件 示例 如 下 。 


192.168.0.111 
以 下 对 主机 进行 分 组 。 


mail.example.com 
[webservers] 
foo.example.com 
bar.example.com 
[dbservers] 
one.example.com 
two.example.com 
three.example.com 


其 中 方 括号 [] 中 是 组 名 ， 用 于 对 系统 进行 分 类 ， 便 于 对 不 同系 统 进行 个 别 的 管理 。 一 个 系 
统 可 以 属于 不 同 的 组 ， 比 如 一 台 服 务 器 可 以 同时 属于 webserver 组 和 dbserver 组 。 这 时 属于 两 
个 组 的 变量 都 可 以 为 这 台 主 机 所 用 。 

分 配 变 量 给 主机 很 容易 做 到 ， 这 些 变 量 定义 后 可 在 playbooks 中 使 用 。 


[atlanta] 

hostl http port-80 maxRequestsPerChild=808 

host2 http port-303 maxRequestsPerChild-909 
组 的 变量 也 可 以 定义 属于 整个 组 的 变量 。 


[atlanta] 
hostl 
host2 


[atlanta:vars] 
ntp server-ntp.atlanta.example.com 
proxy-proxy.atlanta.example.com 


可 以 把 一 个 组 作为 另 一 个 组 的 子 成 员 ， 以 及 分 配 变量 给 整个 组 使 用 ， 这 些 变量 可 以 给 
/usr/bin/ansible-playbook 使 用 ， 但 不 能 给 /usr/bin/ansible 使 用 。 


[atlanta] 
hostl 
host2 


[raleigh] 
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host2 
host3 


[southeast:children] 
atlanta 
raleigh 


[southeast:vars] 

Some server-foo.southeast.example.com 
halon system timeout-30 

self destruct countdown-60 

escape pods-2 


[usa:children] 
Southeast 
northeast 
southwest 
northwest 


对 于 每 一 个 host， 还 可 以 选择 连接 类 型 和 连接 用 户 名 。 


[targets] 


localhost ansible connection=local 
otherl.example.com ansible connection-ssh ansible ssh user-mpdehaan 
other2.example.com ansible connection-ssh ansible ssh user-mdehaan 


如 上 所 示 ， 通 过 设置 下 面 inventory 的 参数 ， 可 以 控制 Ansible 与 远程 主机 的 交互 方式 。 


ansible ssh host 

如 果 将 要 连接 的 远程 主机 名 与 你 想 要 设 定 的 主机 的 别名 不 同 的 话 , 就 可 通过 此 变量 设置 . 
ansible ssh port 

ssh 端口 号 .如 果 不 是 默认 的 端口 号 , 就 通过 此 变量 设置 . 
ansible ssh user 

默认 的 ssh 用 户 名 
ansible ssh pass 

ssh 密码 (这 种 方式 并 不 安全 ,我 们 强烈 建议 使 用 --ask-pass 或 SSH 密 钥 ) 
ansible sudo pass 

sudo 密码 (这 种 方式 并 不 安全 ,我 们 强烈 建议 使 用 ——ask-sudo-pass) 
ansible sudo exe (new in version 1.8) 

sudo 命令 路 径 (适用 于 1.8 及 以 上 版 本 ) 
ansible connection 

与 主机 的 连接 类 型 .比如 :local，ssh 或 paramiko. Ansible 1.2 以 前 默认 使 用 
paramiko.1.2 以 后 默认 使 用 'smart','smart' 方式 会 根据 是 否 支持 ControlPersist 来 判断 
"ssh' 方式 是 否 可 行 . 
ansible ssh private key file 

ssh 使 用 的 私 钥 文 件 . 适 用 于 有 多 个 密 钥 , 而 你 不 想 使 用 SSH 代理 的 情况 . 
ansible shell type 

目标 系统 的 shell 类 型 .默认 情况 下 , 命令 的 执行 使 用 'sh' 语法 ,可 设置 为 "csh' 或 'fish' 
ansible python interpreter 

目标 主机 的 python 路 径 . 适 用 的 情况 : 系统 中 有 多 个 Python， 或 者 命令 路 径 不 是 
"/usr/bin/python", 比 如 \*BSD， 或 者 /usr/bin/python 
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不 是 2.X 版 本 的 Python .我 们 不 使 用 "/usr/bin/env" 机 制 ,因为 这 要 求 远程 用 户 的 路 径 设置 
正确 , 且 要 求 "python" 可 执行 程序 名 不 可 为 python 以 外 的 名 字 (实际 有 可 能 名 为 python26) .与 
ansible python interpreter 的 工作 方式 相同 ,可 设 定 如 ruby 或 perl 的 路 径 .... 


下 面 是 一 个 主机 文件 的 例子 。 


some host ansible ssh port=2222 ansible ssh user=manager 
aws host ansible ssh private key file=/home/example/.ssh/aws.pem 
freebsd host ansible python interpreter=/usr/local/bin/python 


ruby module host ansible ruby interpreter=/usr/bin/ruby.1.9.3 


6 e 4 ansible ad-hoc 模式 


我 们 先 来 看 一 下 如 何 执行 ansible 命令 (ad-hoc 模式 ) ， 配 置 文件 如 下 。 


aaron@ubuntu:~$ cat ~/.ansible.cfg 
[defaults] 
inventory = ~/ansible hosts 


inventory 文件 如 下 。 


aaron@ubuntu:~$ cat ~/ansible hosts 

[master] 

localhost ansible connection=local ansible ssh user=aaron 
192.168.0.111 ansible ssh user=aaron 

[slave] 

192.168.0.112 ansible ssh user-aaron 


有 可 能 每 台 机 器 登录 的 用 户 名 都 不 一 样 ， 这 里 指定 每 台 机 器 连接 的 SSH 登录 用 户 名 ， 在 
执行 Ansible 命令 时 就 不 需要 再 指定 用 户 名 。 如 果 不 指定 用 户 名 , Ansible 就 会 尝试 使 用 本 机 已 
登录 的 用 户 名 登录 远程 主机 。 

在 运行 一 个 不 熟悉 的 命令 前 ,建议 先 查 看 命令 的 帮助 信息 。 查 看 帮助 信息 的 指令 是 “命令 
+ 参数 ”， 这 里 的 参数 一 般 是 -h、-help、--help 等 ， 或 者 使 用 “man 指令 ”的 命令 格式 。 使 用 
ansible 命令 的 帮助 : 


aaron@ubuntu:~$ ansible -help 
Usage: ansible <host-pattern> [options] 


Define and run a single task 'playbook' against a set of hosts 


Options: 

-a MODULE ARGS, --args-MODULE ARGS 
module arguments 

—-ask-vault-pass ask for vault password 

-B SECONDS, --background-SECONDS 
run asynchronously, failing after X seconds 
(default-N/A) 

=o, check don't make any changes; instead, try to predict some 
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of the changes that may occur 
-D, —diff when changing (small) files and templates, show the 
differences in those files; works great with --check 
-e EXTRA VARS, --extra-vars-EXTRA VARS 
set additional variables as key=value or YAML/JSON, if 
filename prepend with @ 
-f FORKS, --forks=FORKS 
specify number of parallel processes to use 
(default=5) 
-h, --help show this help message and exit 
-i INVENTORY, --inventory-INVENTORY, --inventory-file-INVENTORY 
specify inventory host path or comma separated host 
list. --inventory-file is deprecated 
-1 SUBSET, --limit-SUBSET 
further limit selected hosts to an additional pattern 
--list-hosts outputs a list of matching hosts; does not execute 
anything else 


ansible 的 任何 参数 所 代表 的 含义 都 可 以 通过 ansible -h 查看 ， 这 里 不 再 袭 述 。 
下 面 介绍 如 何 使 用 ansible 命令 ， 首 先 列 出 配置 过 的 主机 列表 。 


【示例 6-1】 列 出 配置 过 的 主机 列表 。 


aaron@ubuntu:~$ ansible all --list-host 
hosts (3): 
192:168:0.112 
localhost 
192: 16820-111 
aaron@ubuntu:~$ ansible master --list-host 
hosts; (23 < 
localhost 
WS Ze L680- LL 


从 运行 结果 可 以 看 出 ， ansible 命令 后 面 跟 的 是 主机 的 组 名 称 ，all 代表 所 有 主机 。 接 下 来 
执行 第 一 条 ansible 命令 。 


【示例 6-2] ping 所 有 主机 。 


aaron@ubuntu:~$ ansible all -m ping 
localhost | SUCCESS => { 
"changed": false, 
"ping" H "pong" 
} 
192.168.0.112 | UNREACHABLE! => { 
"changed": false, 
"msg": "Failed to connect to the host via ssh: Permission denied 
(publickey, password) .\r\n", 
"unreachable": true 
m 
192.168.0.111 | UNREACHABLE! => { 
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"changed": false, 


"msg": "Failed to connect to the host via ssh: Permission denied 
(publickey, password) .\r\n", 
"unreachable": true 


) 


从 上 述 运行 结果 可 以 看 出 ，ansible 返回 的 类 型 是 一 个 键 值 对 的 json 格式 的 数据 ， 其 中 
localhost 成 功 ， 其 他 两 个 主机 均 失 败 了 ， 因 为 SSH 是 一 个 安全 的 协议 ， 在 未 授信 的 情况 下 必 
须 提供 用 户 名 和 密码 才 允 许 访问 远程 主机 。 

我 们 使 用 密码 来 执行 ansible 的 ping 命令 。 


【示例 6-3】ping 命令 。 


aaron@ubuntu:~$ ansible all -m ping --ask-pass 
SSH password: 
localhost | SUCCESS => { 

"changed": false, 

"ping": "pong" 


} 

192.168.0.111 | SUCCESS => { 
"changed": false, 
"ping": "pong" 

} 

192.168.0.112 | SUCCESS => { 
"changed": false, 
"ping": "pong" 


输入 密码 后 (如 果 每 台 机 器 密码 相同 ， 则 只 需要 执行 一 次 命令 , 输入 一 次 密码 即 可 ， 如果 
密码 不 同 ， 则 需要 多 次 执行 命令 ， 每 次 输入 不 同 的 密码 ) ， 命 令 被 成 功 执行 ， 在 一 些 机 器 上 会 
需要 安装 sshpass 或 指定 参数 -c paramiko。 从 运行 结果 可 以 看 出 ， 都 是 ping 通 的 ， 返 回 结果 为 
"pong", changed 是 false 表示 未 改变 远程 主机 任何 文件 。 这 样 一 个 指令 就 分 别 发 送 到 三 台 主 机 
进行 执行 ,是 不 是 很 高 效 ? 短 时 间 内 无 须 再 重复 输入 密码 。 那么 问题 来 了 , 每 次 都 输入 密码 太 
麻烦 了 ， 有 没有 不 输入 密码 的 方法 呢 ” 当 然 有 ，Ansible 使 用 SSH 协议 登录 远程 主机 。 下 面 我 
们 使 用 Ansible 将 localhost 的 公 钥 复制 到 远程 主机 的 authorized keys， 也 就 是 授信 。 

首先 检查 本 机 是 否 已 生成 公 钥 ,如 果 没 有 , WE shell 中 执行 ssh-keygen 命令 后 一 直 按 Enter 
键 即 可 。 


aaron@ubuntu:~$ ls -ltr ~/.ssh 


total 12 
-rw-r--r-- 1 aaron aaron 394 Aug 2 21:39 id rsa.pub 
SMES 1 aaron aaron 1679 Aug 2 21:39 id rsa 


-rw-r--r-- 1 aaron aaron 666 Aug 4 09:11 known hosts 


如 果 有 id_rsapub， 则 说 明 已 经 生成 了 公 钥 。 接 下 来 我 们 使 用 ansible 将 公 钥 文件 的 内 容 复 
制 到 远程 主机 的 authorized_keys 中 去 。 
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【示例 6-4] Ansible 批量 执行 SSH 授信 。 


aaron@ubuntu:~/.ssh$ ansible all -m authorized key -a "user=aaron 
key-'(( lookup('file', '/home/aaron/.ssh/id rsa.pub') }}' 
path-/home/aaron/.ssh/authorized keys manage dir-yes" --ask-pass 
SSH password: 
localhost | SUCCESS => { 

"changed": true, 

"comment": null, 

"exclusive": false, 

"gid": 1001; 

Pgroup! aaron, 

"key": "ssh-rsa 
AAAAB3NzaC 1 yc2EAAAADAQABAAABAQD} f6e7DpOI/7eARUNvOo7XxD51X1fp9/amlhYn2aCkZyhPWRKU 
YiJQHm7JtPJQAV206LyAaZxcksLEbRD2bOHjTyu9uV2y8dfmejG7ISn/jOWXLQ-4mjgtxxOKUj--0Hu5 
vRbvlzi7ggfHsZc2147Zgpc3XHoCPXM/E514TE60Pt1«*5141IdZWErNX255dXDqrCmd7VEvSTvvIlK/ 
tkSY80TBEg87TRscrgmsQyLyOoSswvCqwpvy+VrT £fSoabZzVb1XvCH+apA4 1wHN4BnQYsQzk2sd175 
rsn8rhzGiZUWc67K4nqbMbqs 1 Dxek3u2enFRQ1VHbs8xHuBvcqwk5XRkkiCp aaron@ubuntu", 

"key options": null, 

"keyfile": "/home/aaron/.ssh/authorized keys", 

"manage dir": true, 

"mode": "0600", 

"owner "aaron", 

"path": "/home/aaron/.ssh/authorized keys", 

"size": 394, 

"state": "file", 

"uid": 1001, 

"unique": false, 

"user": "aaron", 

"validate certs": true 


} 
192.168.0.111 | SUCCESS => { 

"changed": true, 

"comment": null, 

"exclusive": false, 

"qid": 1000, 

"group": "aaron", 

"key": "ssh-rsa 
AAAAB3NzaClyc2EAAAADAQABAAABAQD]f6e7DpOI/7eARUNvo7xD51X1fp9/amlhYn2aCkZyhPWRKU 
YiJQHm7JtPJQAV206LyAaZxcksLEbRD2bOHjTyu9uV2y8dfmejG7ISn/jOWXLQ4mjgtxxOKUj-0Hu5 
vRbvlzi7ggfHsZc2147Zgpc3XHoCPXM/E514TE60Pt145141dZWErNX255dXDqrCmd7VEvSTvvIlK/ 
tkSY8oTBEg87TRscrgmsQyLyOoSswvCqWpvy-*VrTfSoabZzVblXvCH*apA41wHN4BnQYsQzk2sdl75 
rsn8rhzGiZUWc67K4ngbMbqslDxek3u2enFRQlVHbs8xHuBvcqwk5XRkkiCp aaron@ubuntu", 

"key options": null, 

"keyfile": "/home/aaron/.ssh/authorized keys", 

"manage dir": true, 

"mode": "0600", 


"owner": "aaron", 
"path": "/home/aaron/.ssh/authorized keys", 
"size": 394, 


"state": "file", 
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"uid": 1000, 

"unique": false, 

"user": "aaron", 

"validate certs": true 
} 
192.168.0.112 | SUCCESS => { 

"changed": true, 

"comment": null, 

"exclusive": false, 

"gid": 1000, 

"group": "aaron", 

"key": "ssh-rsa 
AAAAB3NzaClyc2EAAAADAQABAAABAQD]f6e7DpOI/7eARUNvo7xD51X1fp9/amlhYn2aCkZyhPWRKU 
YiJQHm7JtPJQAV206LyAaZxcksLEbRD2bOHjTyu9uV2y8dfmejG7ISn/jOWXLQ*mjgtxxOKU;j-0Hu5 
vRbvlzi7ggfHsZc21*7Zgpc3XHoCPXM/ES514TE60Pt1-45141dZWErNX255dXDqrCmd7VEvSTvvIlK/ 
tkSY80TBEg87TRscrgmsQyLyOoS swvCqwpvy+VrTfSoabZzVb1XvCH+apA4 lwHN4BnQYsQzk2sd175 
rsn8rhzGiZUWc67K4nqbMbqslDxek3u2enFROQlVHbs8xHuBvcqwk5XRkkiCp aaron@ubuntu", 

"key options": null, 

"keyfile": "/home/aaron/.ssh/authorized keys", 

"manage dir": true, 

"mode": "0600", 

"owner": "aaron", 

"path": "/home/aaron/.ssh/authorized keys", 

"Size": 394, 

"state": "file", 

"uid": 1000, 

"unique": false, 

"user": "aaron", 

"validate certs": true 


这 里 我 们 使 用 Ansible 内 置 的 SSH 密 钥 管理 模块 authorized _ key 来 执行 批量 SSH 授信 的 任 
务 ， 输 入 密码 后 ， 得 到 上 述 运行 结果 ， 说 明成 功 执行 。 如 果 远 程 主机 的 密码 不 相同 ， 则 需要 执 
行 多 次 命令 ， 每 次 执行 命令 时 都 需要 输入 不 同 的 密码 ，Ansible 将 对 正确 密码 的 主机 进行 SSH 
授信 。 如 果 以 上 输入 命令 均 正确 但 仍 有 主机 不 成 功 时 ， 那 么 请 检查 对 应 主机 authorized keys 
文件 只 允许 所 属 用 户 的 读 写 权限 ， 对 应 的 数字 是 600; 如 果 权 限 不 正确 ， 可 通过 在 终端 执行 
“chmod 600 authorized keys” 来 确保 正确 的 访问 权限 。 


a SSH 对 authorized keys 的 权限 要 求 比较 严格 , 仅 所 属 用 户 才 有 读 写 权限 (600 时 才 生 效 ) 。 


到 目前 为 止 SSH 已 授信 成 功 了 ， 后 续 可 以 免 密 码 执行 命令 ， 下 面 我 们 来 验证 一 下 。 
C1) 使 用 Ansible 获取 被 管理 机 器 的 当前 时 间 。 


aaron@ubuntu:~/.ssh$ ansible all -a "date +'%Y-%m-%d $T'" 
localhost | SUCCESS | rc=0 >> 
2018-08-04 15:04:55 
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192.168.0.111 | SUCCESS | rc-0 >> 
2018-08-04 00:04:57 


192.168.0.112 | SUCCESS | rc-0 >> 
2018-08-04 0:04:57 


可 见 现在 无 须 输入 密码 ， 即 可 同时 获取 三 台 主 机 的 时 间 。 


(2) 使 用 Ansible 批量 上 传 文件 。 
将 一 个 文本 文件 上 传 至 远程 主机 的 用 户 home 目录 中 ， 上 传 之 前 先 查看 远程 主机 上 用 户 
home 目录 上 的 文件 。 


aaron@ubuntu:~$ ansible all -m shell -a "ls ~/*.*" 
localhost | SUCCESS | rc=0 >> 
/home/aaron/030303.mp4 
/home/aaron/aaa.py 
/home/aaron/dfasdfasdfad.py 
/home/aaron/examples.desktop 
/home/aaron/hello.py 
/home/aaron/new.py 
/home/aaron/playbook.retry 
/home/aaron/playbook.yaml 
/home/aaron/setting.py 
/home/aaron/test.py 
/home/aaron/vimrc.bak 20180719 
/home/aaron/ 你 好 .txt 


192.168.0.111 | SUCCESS | rc=0 >> 
/home/aaron/examples.desktop 


192.168.0.112 | SUCCESS | rc-0 >> 
/home/aaron/examples.desktop 


现在 将 localhost 主机 上 的 "你 好 .txt" 上 传 至 另外 两 台 服 务 器 。 
【示例 6-5】 上 传 文件 。 


aaron@ubuntu:~$ ansible all -m copy -a "src=/home/aaron/ 你 好 .txt dest=/home/aaron" 
localhost | SUCCESS => { 

"changed": false, 

"checksum": "da39a3ee5e6b4b0d3255bfef95601890afd80709", 

"dest": "/home/aaron/ fi .txt", 

Hqad™ = 1001, 

"group": "aaron", 

"mode": "0664", 

"owner": "aaron", 

"path": "/home/aaron/ 你 好 .txtnv 

"size": 07 

"state": "prie", 

"uid": 1001 
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192.168.0.112 | SUCCESS => { 
"changed": true, 
"checksum": "da39a3ee5e6b4b0d3255bfef95601890afd80709", 
"dest": "/home/aaron/ 你 好 .txtnyv 


"gid": 1000, 

"group "aaron", 

"md5sum": "d41d8cd98f00b204e9800998ecf8427e", 
"mode": "0664", 

"owner": "aaron", 

"size": 0, 

Marens 


"/home/aaron/ .ansible/tmp/ansible-tmp-1533367280.2415307-170986393705436/sourc 
e", 
"State": "file", 
"uid": 1000 
m 
192.168.0.111 | SUCCESS => { 
"changed": true, 
"checksum": "da39a3ee5e6b4b0d3255bfef95601890afd80709", 
"dest": "/home/aaron/ 你 好 .txt"， 
"gia": 1000, 


"group": "aaron", 
"md5sum": "d41d8cd98f00b204e9800998ecf8427e", 
"mode": "0664", 


"owner "aaron", 
"Size": 0, 
sren: 


"/home/aaron/.ansible/tmp/ansible-tmp-1533367280.2476053-270780127291475/sourc 
e", 

Tocatas vtm 

"uid": 1000 


可 以 看 出 ， 文 件 已 经 传输 至 另外 两 台 主 机 ， 本 例 中 的 localhost 本 就 有 "你 好 .txt"， 默 认 不 
会 被 覆盖 ， 因 此 changed 是 false。 我 们 再 执行 ls 命令 进行 验证 一 下 。 


aaron@ubuntu:~$ ansible all -m shell -a "ls ~/*.*" 
localhost | SUCCESS | rc=0 >> 
/home/aaron/030303.mp4 
/home/aaron/aaa.py 
/home/aaron/dfasdfasdfad.py 
/home/aaron/examples.desktop 
/home/aaron/hello.py 
/home/aaron/new.py 
/home/aaron/playbook.retry 
/home/aaron/playbook.yaml 
/home/aaron/setting.py 
/home/aaron/test.py 
/home/aaron/vimrc.bak 20180719 
/home/aaron/ Kf . txt 
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192.168.0-112 | SUCCESS | rc-0 >> 
/home/aaron/examples.desktop 
/home/aaron/ 你 好 .txt 


192.168.0.111 | SUCCESS | rc=0 >> 
/home/aaron/examples.desktop 
/home/aaron/ 你 好 .txt 


文件 已 经 上 传 成 功 了 。 


(3) 使 用 Ansible 的 模块 帮助 文档 ansible-doc。 

一 个 优秀 的 工具 一 定 有 着 便捷 的 帮助 文档 ，Ansible 也 不 例外 ， 前 述 操作 使 用 了 Ansible 
的 模块 有 ping、authorized_key、copy、shell 等 。 如 果 想 知道 这 些 模块 的 详细 说 明 ， 只 需要 执 
行 ansible-doc 模块 名 即 可 。 


aaron@ubuntu:~$ ansible-doc copy 

> COPY 
(/home/aaron/py37env/lib/python3.7/site-packages/ansible/modules/files/copy.py 
) 


The ‘copy' module copies a file from the local or remote machine to a 
location on the remote machine. Use the [fetch] module to copy files 
from remote locations to the local box. If you need variable 
interpolation in copied files, use the [template] module. For Windows 
targets, use the [win copy] module instead. 


* note: This module has a corresponding action plugin. 
OPTIONS (= is mandatory): 


- attributes 
Attributes the file or directory should have. To get supported flags 
look at the man page for ‘chattr' on the target system. This string 
Should contain the attributes in the same order as the one displayed by 
^lsattr'. 
(Aliases: attr)[Default: (null)] 
version added: 2.3 


- backup 
Create a backup file including the timestamp information so you can get 
the original file back if you somehow clobbered it incorrectly. 
[Default: no] 
type: bool 
version added: 0.7 


- checksum 
SHAl checksum of the file being transferred. Used to validate that the 
copy of the file was successful. 
If this is not provided, ansible will use the local calculated checksum 
of the src file. 


170 


第 6 章 自动 化 运 维 工具 Ansible 
Ansible 常用 的 模块 及 介绍 可 参见 表 6-1。 
表 6-1 Ansible 常用 的 模块 及 介绍 


ping 主机 连通 性 测试 

command 在 远程 主机 上 执行 命令 ， 并 返回 结果 

shell 在 远程 主机 上 调用 shell 解释 器 运行 命令 ， 支 持 shell 的 各 种 功能 
cop 将 文件 复制 到 远程 主机 ， 同 时 支持 给 定 内 容 生 成 文件 和 修改 权限 等 
file 设置 文件 的 属性 ， 如 创建 文件 、 创 建 链接 文件 、 删 除 文件 等 

fetch 从 远程 主机 获取 文件 到 本 地 

cron 管理 远程 主机 的 _crontab 计划 任务 
| yum 用 于 软件 的 安装 

service 用 于 服务 程序 的 管理 

user 用 于 管理 远程 主机 的 用 户 账 号 

rou] 用 于 添加 或 删除 组 

script 用 于 将 本 机 的 脚本 在 被 管理 端的 机 器 上 运行 

setu 主要 用 于 收集 信息 ， 是 通过 调用 facts 组 件 来 实现 的 


Ansible Playbooks 模式 


前 述 操作 对 远程 执行 的 命令 都 是 相同 的 ,那么 是 否 可 以 同时 对 不 同 的 主机 执行 不 同 的 指令 
We? 当然 可 以 ， 这 就 是 本 节 要 介绍 的 Ansible 的 剧本 Playbooks. 

Playbooks 是 Ansible 的 配置 、 部 署 、 编 排 的 语言 。 它 们 可 以 被 描述 为 一 个 需要 希望 远程 
主机 执行 命令 的 方案 ， 或 者 一 组 IT 程序 运行 的 命令 集合 。 如 果 Ansible 模块 是 工作 室 中 的 工 
具 ， 那 么 Playbooks 就 是 设置 的 方案 计划 。 

学 习 这 个 命令 前 先 查 看 ansible-playbook 的 帮助 命令 。 


aaron@ubuntu:~$ ansible-playbook -h 
Usage: ansible-playbook [options] playbook.yml [playbook2 ...] 


Runs Ansible playbooks, executing the defined tasks on the targeted hosts. 


Options: 
--ask-vault-pass ask for vault password 
-C, --check don't make any changes; instead, try to predict some 
of the changes that may occur 
=D), da when changing (small) files and templates, show the 


differences in those files; works great with --check 
-e EXTRA VARS, --extra-vars-EXTRA VARS 
set additional variables as key-value or YAML/JSON, if 
filename prepend with @ 
--flush-cache clear the fact cache for every host in inventory 
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—-force-handlers run handlers even if a task fails 

-f FORKS, --forks-FORKS 
specify number of parallel processes to use 
(default-5) 

-h, --help show this help message and exit 

-i INVENTORY, --inventory-INVENTORY, --inventory-file-INVENTORY 


发 现 ansible-playbook 命令 需要 一 个 plauybook.yml 的 文件 名 作为 参数 。 那 么 问题 又 来 了 ， 
什么 是 yml 文件 呢 ? 

yml 文件 是 yaml 语法 格式 的 文件 ， 我 们 使 用 YAML 是 因为 它 像 XML 或 ISON 那样 是 一 
种 利于 读 写 的 数据 格式 。 另 外 ， 在 大 多 数 编程 语言 中 有 使 用 YAML 的 库 。 对 于 Ansible， 每 一 
个 YAML 文件 都 是 从 一 个 列表 开始 ， 列 表 中 的 每 一 项 都 是 一 个 键 值 对 ， 通 常 被 称 为 一 个 “ 哈 
希 ” 或 “字典 ”。 所 以 ， 我 们 需要 知道 如 何在 YAML 中 编写 列表 和 字典 。 所 有 的 YAML 文件 
(无 论 与 Ansible 有 没有 关系 ) 开始 行 都 应 该 是 ---， 这 是 YAML 格式 的 一 部 分 ， 表 明 一 个 文 
件 的 开始 。 列 表 中 的 所 有 成 员 都 开始 于 相同 的 缩 进 级 别 ， 并 且 使 用 一 个 "-" 作 为 开头 〈 一 个 横 
杠 和 一 个 空格 ) 。 

示例 如 下 : 


# 一 个 美味 水 果 的 列表 
- Apple 

- Orange 

- Strawberry 

- Mango 


一 个 字典 是 由 一 个 简单 的 键 : 值 的 形式 组 成 〈 这 个 冒号 后 面 必须 是 一 个 空格 ) 。 


# 一 位 职工 的 记录 

name: Example Developer 
job: Developer 

skill: Elite 


字典 也 可 以 使 用 缩 进 形式 来 表示 。 


# 一 位 职工 的 记录 


{name: Example Developer, job: Developer, skill: Elite} 


Ansible 并 不 经 常 使 用 上 面 这 种 格式 。 可 以 通过 以 下 格式 来 指定 一 个 布尔 值 Ctrue/fase) 。 


create key: yes 
needs agent: no 
knows oop: True 
likes emacs: TRUE 
uses cvs: false 


我 们 把 目前 所 学 到 的 YAML 例子 组 合 在 一 起 。 
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# 一 位 职工 记录 
name: Example Developer 
job: Developer 
skill: Elite 
employed: True 
foods : 

~ Apple 

- Orange 

- Strawberry 

- Mango 
languages: 

ruby: Elite 

python: Elite 

dotnet: Lame 


以 上 就 是 编写 Ansible playbooks 需要 知道 的 所 有 YAML 语法 。 
现在 来 写 一 个 简单 的 playbook， 文 件 名 为 myplaybook.yml。 


【示例 6-6】 简 单 的 playbook. 


-shosts: master 
remote user: aaron 
tasks: 
- name: read sys time 
shell: echo "‘date +'%Y-%m-%d %T'*">time.txt 
- hosts: slave 
remote user: aaron 
tasks: 
- name: list file 
shell: 1s -ltr>list.txt 


上 述 YAMLI 文件 分 别 定 义 了 对 两 组 主机 执行 不 同 的 task， 注 意 缩 进 格式 。 
现在 执行 ansible-playbook myplaybook.yml 命令 ， 结 果 如 下 。 
aaron@ubuntu:~$ ansible-playbook myplaybook.yml 


PLAY [master] 
KKK KKK KKK KKK KKK HK KKK KKK KKK KKK KKK KKK KK KKK KKK KKK KKK IKKE KKK KKK KK KKK KKK KKK KEKE AK 


KKK dee 


TASK [Gathering Facts] 

HHH HH HHH KK KKK KK KK KH HK KKK KKK KK KH KK KK KK KKK KKK KK HK KKK KKK KKK KKK KKKKKKKKKKAAKKKK 
ok: [localhost] 

ok: [192.168.0.111] 


TASK [read sys time] 


KAKA KKK KA KKK KKK KKK KKK KKK ok ko KK KAKA KKK oo o KKK AK ee dee o eo ooo AK EA eee ke e 


* 


changed: [localhost] 
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changed: [192.168.0.111] 


PLAY [slave] 
ek kk ke Aoc oko ok ek ok o Rock Ko eo eR do Rok o eo Ro X ok ook Ko kk Ko oe Ke ek ek Ak oe 


Xo GR GGG 


TASK [Gathering Facts] 
OK KK RCROCKCKOIOKCKCOR RCOK CRCICK CIOKRCEOICRCRORKCRCICK CRCICROEOKCRCIOIRCORORCROOKCACEOKRCORGRCROIOK ROCK A IOI II a TO ROO 


ok: [192.168.0.112] 


TASK [list file] 


lll RK KKK KK KK AK KA KKK KK KK KKK AA KK KEK KK KK KK AAA KK llli: 


Xe 


changed: [192.168.0.112] 


PLAY RECAP 
CK CK kk eoe ok Kk IR oko oko CK ok Rok RC CR ok ok ok ok ok III A ok oko eee eek 


ok kk ke eee 


E92 6850/81: ok-2 changed=1 unreachable=0 failed=0 
192.168.0.112 ok=2 changed=1 unreachable=0 failed=0 
localhost : ok-2 changed-1 unreachable=0 failed=0 


说 明 三 台 主机 上 的 任务 已 成 功 执行 ， 我 们 来 验证 一 下 。 


(py37env) aaron@ubuntu:~$ ansible all -m shell -a "ls -ltr *.txt" 
localhost | SUCCESS | rc=0 >> 

-rw-rw-r-- 1 aaron aaron 0 Jun 14 06:57 你 好 .txt 

-rw-rw-r-- 1 aaron aaron 20 Aug 4 21:54 time.txt 


192.168.0.111 | SUCCESS | rc-0 >> 
-rw-rw-r-- 1 aaron aaron 0 Aug 4 00:21 你 好 .txt 
-rw-rw-r-- 1 aaron aaron 20 Aug 4 06:54 time.txt 


192.168.0.112 | SUCCESS | rc-0 >> 
-rw-rw-r-- 1 aaron aaron 0 Aug 4 00:21 你 好 .txt 
-rw-rw-r-- 1 aaron aaron 637 Aug 4 06:54 list.txt 


当 有 许多 任务 要 执行 时 ， 可 以 指定 并 发 进程 数 。 
ansible-playbook myplaybook.yml -f 10 4 表示 由 10 个 并 发 的 进程 来 执行 任务 

上 述 仅 为 ansible-playbook 的 冰山 一 角 ，ansible-playbook 还 可 以 实现 Handlers， 当 在 发 生 
改变 时 执行 相应 的 操作 ， 最 佳 的 应 用 场景 是 用 来 重启 服务 ， 或 者 触发 系统 重启 操作 。 配 置 的 
YAML 文件 支持 Ansible-Pull 进行 拉 取 配置 等 。 详 见 宣 方 文档 
http://www.ansible.com.cn/docs/playbooks_intro.html. 
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第 7 章 
定时 任务 模块 APScheduler 


APScheduler 使 用 起 来 十 分 方便 ， 其 提供 了 基于 日 期 、 固 定时 间 间 隔 及 crontab 类 型 的 任 
务 , 我 们 可 以 在 主 程序 的 运行 过 程 中 快速 增加 新 作业 或 删除 旧作 业 。 如 果 把 作业 存储 在 数据 库 
中 ,那么 作业 的 状态 会 被 保存 ， 当 调度 器 重启 时 ,不 必 重 新 添加 作业 ， 作 业 会 恢复 原状 态 继续 
执行 。 APScheduler 可 以 当 作 一 个 跨 平台 的 调度 工具 来 使 用 , 可 以 作为 Linux 系统 crontab 工具 
或 Windows 计划 任务 程序 的 蔡 换 。 

注意 ，APScheduler 不 是 一 个 守护 进程 或 服务 ， 其 自身 不 带 有 任何 命令 行 工具 。 它 主要 是 
在 现 有 的 应 用 程序 中 运行 ， 也 就 是 说 ，APScheduler 为 我 们 提供 了 构建 专用 调度 器 或 调度 服务 
的 基础 模块 。 基 于 这 些 功能 ， 我 们 可 以 很 方便 地 实现 本 章 开始 提 到 的 运 维 需求 。 


安装 及 基本 概念 


7.1.1 APScheduler 的 安装 
安装 APScheduler 模块 非常 简单 ， 没 有 pip 工具 的 可 以 下 载 安装 包 ， 使 用 方法 二 安装 。 


€ 方法 一 : pin install apscheduler 。 
© 方法 二 : 解压 安装 包 后 ， 执 行 python setup.py install. 


7.1.2 APScheduler 涉及 的 几 个 概念 


€ MAE (triggers): 触发 器 包含 调度 远 辑 ， 描 述 一 个 任务 何 时 被 触发 ， 有 按 日 期 、 
按时 间 间 隔 、 按 cronjob 描述 式 三 种 触发 方式 。 每 个 作业 都 有 它 自己 的 触发 器 ， 除 了 
初始 配置 之 外 ， 触 发 器 是 完全 无 状态 的 。 

€ ”作业 存储 器 (job stores): 作业 存储 器 指定 了 作业 被 存放 的 位 置 ， 默认 的 作业 存储 
器 是 内 存 ， 也 可 以 将 作业 保存 在 各 种 数据 库 中 。 当 作业 被 存放 在 数据 库 中 时 ， 它 会 被 
序列 化 ; 当 被 重新 加 载 时 ， 会 反 序 列 化 。 作 业 存 储 器 充当 保存 、 加 载 、 更 新 和 查找 作 
业 的 中 间 商 。 在 调度 器 之 间 不 能 共享 作业 存储 。 
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© 执行 器 (executors ) : 执行 器 是 将 指定 的 作业 ( 调用 函数 ) 提交 到 线程 池 或 进程 池 
中 运行 ， 当 任务 完成 时 ， 执 行 器 通知 调度 器 触发 相应 的 事件 。 
© 调度 器 (schedulers): 任务 调度 器 ， 控 制 器 角色 ， 通 过 它 配置 作业 存储 器 、 执 行 器 
sg 添加 、 修改 和 删除 任务 。 调度 器 协调 触发 器 、 作 业 存 储 器 、 执 行 器 的 运行 
通常 只 有 一 个 调度 程序 运行 在 应 用 程序 中 , 开发 人 员 不 需要 直接 处 理 作 业 存储 器 、 执 
行 器 或 触发 器 。 配 置 作业 存储 器 和 执行 器 是 通过 调度 器 来 完成 的 。 


7.1.3 APScheduler 的 工作 流程 
调度 器 的 工作 流程 如 图 7.1 所 示 。 


返回 运行 结果 


增 、 删 、 改 、 查 
图 7.1 调度 器 的 工作 流程 

下 面 先 来 看 一 个 例子 。 

【示例 7-1】 一 个 简单 的 间隔 任务 实例 Cex_interval.py) 。 


#encoding=utf-8 

from datetime import datetime 

import os 

from apscheduler.schedulers.blocking import BlockingScheduler 


def tick(): 
print ('Tick! The time is: $s' % datetime.now()) 


06 - 0 U 5U0!Pc^ 


9 if name == ' main ': 

10 scheduler = BlockingScheduler () 

air scheduler.add job(tick, 'interval', seconds=3) 

12 print('Press Ctrl+{0} to exit'.format('Break' if os.name == 'nt' else 'C 


14 try: 

als) scheduler.start () 

16 except (KeyboardInterrupt, SystemExit) : 
17 pass 
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代码 说 明 : 


@ 第 1 行 代码 声明 文件 内 容 以 utf-8 编码 。 

€ 第 2 行 导入 datetime 模块 ， 在 第 7 行 用 到 ， 取 当前 时 间 。 

@ 第 3 行 导入 os 模块 ， 在 第 12 行 用 到 ， 用 于 判断 操作 系统 类 型 。 

@ 第 4 行 导 入 调度 器 模块 BlockingScheduler， 这 是 比较 简单 的 调度 器 ， 调 用 start 方法 
后 不 再 返回 。 如 果 和 希望 将 apscheduler 用 于 独立 的 调度 器 ， 如 守护 进程 ， 那 么 
BlockingScheduler 非常 有 用 。 

@ 第 6 行 和 第 7 行 定义 一 个 作业 tick， 这 个 任务 打印 出 当前 的 时 间 。 

@ 第 9 行 定义 主 函数 入 口 。 

@ 第 10 行 实例 化 一 个 BlockingScheduler 类 ,不 带 参数 表明 使 用 默认 的 作业 存储 器 -内 存 。 
默认 的 执行 器 是 线程 池 执行 器 ， 最 大 线程 数 为 10 个 ( 另 一 个 是 进程 池 执行 器 ) 。 

@ 第 11 行 添加 一 个 作业 tick， 触 发 器 为 interval， 每 隔 3 秒 执行 一 次 ， 另 外 的 触发 器 为 
date, cron. date 按 特定 时 间 点 触发 ，cron 则 按 固定 的 时 间 间 隔 触 发 。 

第 12 行 打 印 退 出 方法 信息 。 

14 行为 try 关键 宇 ， 表 明 举 试 执行 下 面 的 代码 。 

15 行为 启用 调度 器 BlockingScheduler。 

16 行 捕捉 用 户 中 断 执 行 和 解释 器 退出 异常 

17 行为 pass 关键 字 ， 表 示 什 么 也 不 做 。 

运行 结果 如 图 7.2 所 示 。 


X 


y 


e © 0o o o 
RR 


图 7.2 运行 结果 


将 上 述 代码 稍 做 修改 就 可 以 变 为 cron 类 的 定时 任务 。 


【示例 7-2】 一 个 简单 的 间隔 任务 实例 Cex_cron.py) o 


from datetime import datetime 
import os 
from apscheduler.schedulers.blocking import BlockingScheduler 


def tick(): 
print ('Tick! The time is: $s' $ datetime.now()) 


if name == ' main ': 
scheduler = BlockingScheduler () 
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scheduler.add job(tick, 'cron', hour=19,minute=23) 
print ('Press Ctrl+{0} to exit'.format('Break' if os.name == 'nt' else 'C 2) 


IE 
Scheduler.start () 

except (KeyboardInterrupt, SystemExit) : 
pass 


定时 cron 任务 也 非常 简单 ， 直 接 给 触发 器 trigger EA ‘cron’ 即 可 。hour =19,minute =23 
表示 每 天 的 19 时 23 分 执行 任务 ， 这 里 可 以 填写 数字 ， 也 可 以 填写 字符 串 。 
hour =19 , minute =23 
hour ='19', minute ='23' 
minute = '*/3' 表示 每 5 分 钟 执行 一 次 
hour ='19-21', minute= '23' 表示 19:23. 20:23. 21:23 各 执行 一 次 任务 


从 例子 可 以 看 出 ，APScheduler 就 是 这 么 灵活 、 易 用 、 可 读 。 


7.2 配置 调度 器 

调度 器 的 主 循环 其 实 就 是 反复 检查 是 否 有 到 期 需要 执行 的 任务 ， 分 以 下 两 步 进行 。 

CD 询问 自己 的 每 一 个 作业 存储 器 ， 有 没有 到 期 需要 执行 的 任务 。 如 果 有 需要 执行 的 任 
务 ， 就 计算 这 些 作 业 中 每 个 作业 需要 运行 的 时 间 点 ; 如 果 时 间 点 有 多 个 ， 就 做 coalesce 检查 。 

(2) 提交 给 执行 器 按时 间 点 运行 。 

在 配置 调度 器 前 ， 首 先 需要 选取 适合 应 用 环境 场景 的 调度 器 、 存 储 器 和 执行 器 。 下 面 是 各 
调度 器 的 适用 场景 : 


€  BlockingScheduler: 适用 于 调度 程序 ， 是 进程 中 唯一 运行 的 进程 ， 调 用 start BAAM 
塞 当前 线程 ， 不 能 立即 返回 。 

€ BackgroundScheduler: 适用 于 调度 程序 ， 在 应 用 程序 的 后 台 运行 ， 调 用 start 后 主线 

程 不 会 阻塞 。 

AsyncIOScheduler: 适用 于 使 用 了 asyncio 模块 的 应 用 程序 。 

GeventScheduler: 适用 于 使 用 了 gevent 模块 的 应 用 程序 。 

TwistedScheduler: 适用 于 构建 Twisted 的 应 用 程序 。 

QtScheduler: 适用 于 构建 Qt 的 应 用 程序 。 


上 述 调度 器 可 以 满足 绝 大 多 数 的 应 用 环境 ,本 节 主 要 以 两 种 调度 器 为 例 介 绍 如 何 进行 调度 
器 配置 。 

作业 存储 器 的 选择 有 两 种 : 一 是 内 存 ， 也 是 默认 的 配置 ; 二 是 数据 库 。 具 体 选 哪 种 要 看 我 
们 的 应 用 程序 在 月 溃 时 是 否 重启 整个 应 用 程序 , 如 果 重 启 整个 应 用 程序 , 作业 就 会 被 重新 添加 
到 调度 器 中 ,此 时 选取 内 存 作 为 作业 存储 器 既 简 单 又 高 效 。 但 是 ， 如果 调度 器 重启 或 应 用 程序 
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朋 溃 ， 就 需要 作业 从 中 断 时 恢复 正常 运行 ,我 们 通常 选择 将 作业 存储 在 数据 库 中 ,使 用 哪 种 数 
据 库 取决 于 在 编程 环境 中 使 用 了 什么 数据 库 。 我 们 可 以 自由 选择 ，PostgreSQL 是 推荐 的 选择 ， 
因为 它 具 有 强大 的 数据 完整 性 保护 。 
同样 的 ， 执 行 器 的 选择 也 取决 于 应 用 场景 。 通 常 默认 的 ThreadPoolExecutor 已 经 足够 好 。 

如 果 作 业 负 载 涉 及 CPU 密集 型 操作 ， 那 么 应 该 考虑 使 用 ProcessPoolExecutor， 甚 至 可 以 同时 
使 用 这 两 种 执行 器 ， 将 ProcessPoolExecutor 执行 器 添加 为 二 级 执行 器 。 

APScheduler 提供 了 许多 不 同 的 方法 来 配置 调度 器 。 可 以 使 用 字典 ， 也 可 以 使 用 关键 字 参 
数 传递 。 首 先 实例 化 调度 程序 添加 作业 ， 然 后 配置 调度 器 ， 获 得 最 大 的 灵活 性 。 

如 果 调 度 程序 在 应 用 程序 的 后 台 运 行 , 则 选择 BackgroundScheduler, 并 使 用 默认 的 jobstore 


和 executor。 


1 from apscheduler.schedulers.background import BackgroundScheduler 
2 scheduler = BackgroundScheduler () 
如 果 想 配置 更 多 信息 ， 就 可 以 设置 两 个 执行 器 、 两 个 作业 存储 器 、 调 整 新 作业 的 默认 值 ， 
并 设置 不 同 的 时 区 。 
配置 详情 如 下 : 
配置 名 为 mongo 的 MongoDBJobStore 作业 存储 器 ; 
配置 名 为 default 的 SQLAlchemyJobStore (使 用 SQLite ) ; 
配置 名 为 default 的 ThreadPoolExecutor， 最 大 线程 数 为 20; 
配置 名 为 processpool 的 ProcessPoolExecutor， 最 大 进程 数 为 5; 
UTC 作为 调度 器 的 时 区 ; 
coalesce 默认 情况 下 关闭 ; 
€ ”作业 的 默认 最 大 运行 实例 限制 为 3。 


以 下 三 个 方法 是 完全 等 同 的 。 


方法 一 : 
1 from pytz import utc 
2 
3 from apscheduler.schedulers.background import BackgroundScheduler 
4 from apscheduler.jobstores.mongodb import MongoDBJobStore 
5 from apscheduler.jobstores.sqlalchemy import SQLAlchemyJobStore 
6 from apscheduler.executors.pool import ThreadPoolExecutor, ProcessPoolExec 
utor 
7 
8 
9 jobstores = { 
10 'mongo': MongoDBJobStore(), 
11 'default': SQLAlchemyJobStore (url-'sqlite:///jobs.sqlite') 
12 n 
13 executors = { 
14 "default': ThreadPoolExecutor (20), 
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15 
16 
Ue 
18 
19 
20 
E 


'processpool': ProcessPoolExecutor (5) 
} 
job defaults = { 
"coalesce': False, 
'max instances': 3 
5 
scheduler = BackgroundScheduler (jobstores=jobstores, executors-executors, 


job_defaults=job defaults, timezone=utc) 


m 
2 
3 
4 
5 
6 
7 
8 
9 


10 
11 
12 
13 
14 
15 
16 
abri 
18 
19 
20 
21 


0 0-1o00650It!)P-^ 


PREP FF 
aowwmnbh 


17 


Jrik—: 
from apscheduler.schedulers.background import BackgroundScheduler 
Scheduler = BackgroundScheduler ({ 
'apscheduler.jobstores.mongo': ( 
'type': 'mongodb' 
b, 
'apscheduler.jobstores.default': { 
"type': 'sqlalchemy', 
'url': 'sqlite:///jobs.sqlite' 
) 
'apscheduler.executors.default': ( 
'class': 'apscheduler.executors.pool:ThreadPoolExecutor', 
'max workers': '20' 
hy 
'apscheduler.executors.processpool': { 


"type': 'processpool', 

"max workers': '5' 
hy 
'apscheduler.job defaults.coalesce': 'false', 
'apscheduler.job defaults.max instances': '3', 
'apscheduler.timezone': 'UTC', 


n 
JE 


from pytz import utc 

from apscheduler.schedulers.background import BackgroundScheduler 
from apscheduler.jobstores.sqlalchemy import SQLAlchemyJobStore 
from apscheduler.executors.pool import ProcessPoolExecutor 


jobstores = { 
'mongo': {'type': 'mongodb'], 
'default': SQLAlchemyJobStore (url-'sqlite:///jobs.sqlite') 
} 
executors = { 
'default': ('type': 'threadpool', 'max workers': 20}, 
'processpool': ProcessPoolExecutor (max workers-5) 
} 
job defaults = { 
"coalesce': False, 
"max instances': 3 
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18 scheduler = BackgroundScheduler () 


19 

20 # .. do something else here, maybe add jobs etc. 

2L 

22 scheduler.configure(jobstores-jobstores, executors=executors, 
job defaults =job defaults, timezone-utc 


以 上 涵盖 了 大 多 数 情况 下 的 调度 器 配置 ,在 实际 运行 中 可 以 试 试 不 同 的 配置 会 有 怎样 不 同 
的 效果 。 


7.3 empeg 


启动 调度 器 前 需要 先 添加 作业 ， 有 两 种 方法 可 以 向 调度 器 添加 作业 : 一 是 通过 接 
add job; 二 是 通过 使 用 函数 装饰 器 ， 其 中 add job0 返回 一 个 apschedulerjob.Job 类 的 实例 ， 
用 于 后 续 修改 或 删除 作业 。 

我 们 可 以 随时 在 调度 器 上 调度 作业 。 如 果 在 添加 作业 时 ,调度 器 还 没有 启动 ， 那么 任务 将 
不 会 运行 ， 并 且 它 的 第 一 次 运行 时 间 在 调度 器 启动 时 计算 。 


im 如 果 使 用 的 是 序列 化 作业 的 执行 器 或 作业 存储 器 ， 那么 要 求 被 调用 的 作业 (函数 ) 必须 是 
全 局 可 访问 的 ， 被 调用 的 作业 的 参数 是 可 序列 化 的 。 作 业 存储 器 中 只 有 MemoryJobStore 
不 会 序列 化 作业 ; 执行 器 中 只 有 ProcessPoolExecutor 序列 化 作业 。 


启动 调度 器 只 需要 调用 调度 器 的 start() 方 法 ， 下 面 分 别 使 用 不 同 的 作业 存储 器 来 举例 说 
明 。 


方法 一 : 使 用 默认 的 作业 存储 器 。 
【示例 7-3】 使 用 默认 的 作业 存储 器 实例 Cexstart scheduler.py) 。 


1 #coding:utf-8 
2 from apscheduler.schedulers.blocking import BlockingScheduler 
3 import datetime 
4 from apscheduler.jobstores.memory import MemoryJobStore 
5 from apscheduler.executors.pool import ThreadPoolExecutor, 
ProcessPoolExecutor 
6 
7 def my job(id-'my job'): 
8 print (id,'--»',datetime.datetime.now()) 
9  jobstores = ( 
10 'default': MemoryJobStore() 
mm 
12 ) 
13 executors = { 
14 'default': ThreadPoolExecutor (20), 
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ais) "processpool': ProcessPoolExecutor (10) 
te }ł 

17 job defaults = { 

18 "coalesce': False, 

19 "max instances': 3 

20 } 


21 scheduler = BlockingScheduler (jobstores=jobstores, executors=executors, 
job defaults=job defaults) 

22  scheduler.add job (my job, 

args=['job interval',],id='job interval',trigger='interval', 

seconds=5, replace existing=True) 

23  scheduler.add job (my job, 

args-['job cron',],id-'job cron',trigger-'cron',month-'4-8,11-12',hour-'7-11', 
second='*/10',\ 

24 end date='2018-05-30') 

25  scheduler.add job (my job, args-['job once now',],id-'job once now') 

26 scheduler.add job(my job, 

args-['job date once',],id-'job date once',trigger-'date',run date-'2018-04-05 
07:48:05") 


20 EDS 
28 Scheduler.start() 
29 except SystemExit: 
30 print('exit') 
3 exit() 

运行 结果 如 下 : 


job once now --> 2018-04-05 07:48:00.967391 

job date once --> 2018-04-05 07:48:05.005532 
job interval --> 2018-04-05 07:48:05.954023 

job cron --> 2018-04-05 07:48:10.004431 

job interval --> 2018-04-05 07:48:10.942542 

job interval --> 2018-04-05 07:48:15.952208 

job cron --> 2018-04-05 07:48:20.007123 

job interval --> 2018-04-05 07:48:20.952202 


上 述 代码 使 用 内 存 作为 作业 存储 器 ， 操 作 比 较 简 单 ， 重 启程 序 相当 于 第 一 次 运行 。 
方法 二 : 使 用 数据 库 作 为 作业 存储 器 。 


【示例 7-4】 使 用 数据 库 作 为 作业 存储 器 示例 Cstart scheduler db.py) 。 


#coding:utf-8 
from apscheduler.schedulers.blocking import BlockingScheduler 
import datetime 
from apscheduler.jobstores.memory import MemoryJobStore 
5 from apscheduler.executors.pool import ThreadPoolExecutor, 
ProcessPoolExecutor 
6 from apscheduler.jobstores.sqlalchemy import SQLAlchemyJobStore 
7 def my job(id-'my job'): 


PUNE 
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8 print (id,'--»',datetime.datetime.now()) 
9  jobstores = { 

10 'default': SQLAlchemyJobStore (url='sqlite:///jobs.sqlite') 
Tn 3 

12  executors — ( 

13 'default': ThreadPoolExecutor (20), 

14 'processpool': ProcessPoolExecutor (10) 
I5 

16 job defaults = { 

Ly "coalesce': False, 

18 "max instances': 3 

IS y 


20 scheduler = BlockingScheduler (jobstores=jobstores, executors=executors, 
job defaults=job defaults) 

21 scheduler.add job (my job, 
args=['job interval',],id='job interval',trigger='interval', 
seconds=5, replace existing=True) 

22  scheduler.add job (my job, 
args-['job cron',],id='job cron',trigger-'cron',month-'4-8,11-12',hour-'7-11', 
second='*/10',\ 

23 end date='2018-05-30') 

24  scheduler.add job(my job, args-['job once now',],id-'job once now') 

25  scheduler.add job (my job, 
args-['job date once',],id-'job date once',trigger-'date',run date-'2018-04-05 
07:48:05") 


26 try: 

27 Scheduler .start() 

28 except SystemExit: 

29 print ('exit') 

30 exit () 
代码 说 明 : 在 第 6 行 和 第 10 行 修改 数据 库 作 为 作业 存储 器 。 
运行 结果 如 下 : 


Run time of job "my job (trigger: date[2018-04-05 07:48:05 CST], next run at: 
2018-04-05 07:48:05 CST)" was missed by 0:18:28.898146 

job once now --> 2018-04-05 08:06:34.010194 

job interval --> 2018-04-05 08:06:38.445843 

job cron --» 2018-04-05 08:06:40.154978 

job interval --» 2018-04-05 08:06:43.285941 

job interval --» 2018-04-05 08:06:48.334360 

job cron --» 2018-04-05 08:06:50.172968 

job interval --» 2018-04-05 08:06:53.281743 

job interval --» 2018-04-05 08:06:58.309952 


提示 我 们 有 作业 本 应 在 2018-04-05 07:48:05 运行 的 作业 没有 运行 ， 因 为 现在 的 时 间 为 
2018-04-05 08:06:34， 错 过 了 0:18:28 的 时 间 。 

如 果 将 上 述 代码 第 21-25 行 注释 掉 重新 运行 本 程序 ， 则 4 种 类 型 的 作业 仍 会 运行 。 结 果 
如 下 : 
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Run time of job "my job (trigger: cron[month-'4-8,11-12', hour-'7-11', 


second-'*/10'], next run at: 2018-04-05 08:14:40 CST)" was missed by 0:00:23.680603 


Run time of job "my job (trigger: cron[month-'4-8,11-12', hour-'7-11', 


second-'*/10'], next run at: 2018-04-05 08:14:40 CST)" was missed by 0:00:13.681604 


Run time of job "my job (trigger: cron[month-'4-8,11-12', hour-'7-11', 


second-'*/10'], next run at: 2018-04-05 08:14:40 CST)" was missed by 0:00:03.681604 


Run time of job "my job (trigger: interval[0:00:05], next run at: 2018-04-05 08:14:38 
CST)" was missed by 0:00:15.687917 
Run time of job "my job (trigger: interval[0:00:05], next run at: 2018-04-05 08:14:38 
CST)" was missed by 0:00:10.687917 
Run time of job "my job (trigger: interval[0:00:05], next run at: 2018-04-05 08:14:38 
CST)" was missed by 0:00:05.687917 


job 
job 
job 
job 


interval 
interval 
cron --> 
interval 


job interval 


作业 仍 会 运行 , 说 明 作业 被 添加 到 数据 库 中 , 程序 中 断后 重新 运行 时 会 自动 从 数据 库 读 取 


作业 信息 ， 而 不 需要 重新 添加 到 调度 器 中 。 如 果 不 注释 21-25 行 添加 作业 的 代码 ， 则 人 


--> 2018-04-05 08:14:33.821645 
--> 2018-04-05 08:14:38.529167 
2018-04-05 08:14:40.150080 

--» 2018-04-05 08:14:43.296188 
--» 2018-04-05 08:14:48.327317 


NS 


重新 添加 到 数据 库 中 ， 这 样 就 有 了 两 个 同样 的 作业 。 为 了 避免 出 现 这 种 情况 ， 可 以 在 add job 
的 参数 中 增加 replace_existing=True， 如 
scheduler.add job (my job, 


args-['job interval',],id-'job interval',trigger='interval',seconds=3, replace 
existing=True) 


如 果 想 运行 错过 运 


scheduler.add job (my job,args = 
['job cron',] ,id-'job cron',trigger-'cron',month-'4-8,11-12',hour-'7-11',seco 
nd-'*/15',coalesce-True,misfire grace time=30,replace existing-True,end date-' 
2018-05-30') 
说 明 : misfire_grace_time， 假 如 一 个 作业 本 来 08:00 有 一 次 执行 ， 但 是 由 于 某 种 原因 没有 
被 调度 上 ， 现 在 08:01 了 ， 这 个 08:00 的 运行 实例 被 提交 时 ， 就 会 检查 其 预订 运行 的 时 间 和 当 
下 时 间 的 差 值 (这 里 是 1 分 钟 )， 大 于 设置 的 30 秒 限制 ， 这 个 运行 实例 将 不 会 被 执行 。 最 常 
见 的 情形 是 scheduler 被 shutdown 后 重启 ， 某 个 任务 会 积 揭 好 几 次 没 执行 (如 5 次 ) ， 待 下 次 


这 个 作业 被 提交 给 执行 器 时 ， 就 执行 5 次。 设置 coalesce=True 后 ， 只 会 执行 一 次 。 


Qu mw 


6 
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其 他 操作 如 下 : 


Scheduler.remove job (job id,jobstore=None) 
scheduler.remove all jobs (jobstore=None) 

Scheduler.pause job (job id, jobstore=None) 
Scheduler.resume job (job id,jobstore-None) 


scheduler. 


scheduler.reschedule job(job id, jobstore=None, 


trigger=None, **trigger_args) HEC HE ML FIO fick eS SF EGER i TIN [8] 


行 的 作业 ， 则 可 以 使 用 misfire grace time. fPlAn: 


# 删 除 作业 
# 删 除 所 有 作业 
# 和 暂停 作业 

# 恢 复 作业 


modify job (job id，Jjobstore=None，*+*changes) 间 修改 单个 作业 属性 信息 


BTS 定时 任务 模块 APScheduler 


7  scheduler.print jobs (jobstore=None, out-sys.stdout)  # 和 输出 作业 信息 


了 .分 ”调度 器 事件 监听 


scheduler 的 基本 应 用 在 前 面 已 经 介绍 过 了 ， 但 仔细 思考 一 下 : 如 果 程 序 有 异常 抛 出 会 影 
响 整个 调度 任务 吗 ? 请 看 下 面 的 代码 ， 运 行 一 下 看 看 会 发 生 什么 情况 。 
# coding:utf-8 


from apscheduler.schedulers.blocking import BlockingScheduler 
import datetime 


def aps test (x): 
print (1/0) 
print (datetime.datetime.now().strftime('$Y-$m-$d $H:$M:$S'), x) 


0 0-100 AWNHEH 


scheduler = BlockingScheduler () 

10  scheduler.add job (func=aps test, args=("#MN{£%',), trigger-'cron', 
second-'*/5') 

m 

12 Scheduler.start () 


运行 结果 如 下 : 


Job "aps test (trigger: cron[second-'*/5'], next run at: 2018-04-05 12:46:35 CST)" 
raised an exception 
Traceback (most recent call last): 
File 
"C: \Users\xx\AppData\Local \ Programs \python\python36\1lib\site-packages\apschedu 
ler\executors\base.py", line 125, in run job 
retval = job.func(*job.args, **job.kwargs) 
File "C:/Users/xx/PycharmProjects/mysite/staff/test2.py", line 7, in aps test 
print (1/0) 
ZeroDivisionError: division by zero 
Job "aps test (trigger: cron[second-'*/5'], next run at: 2018-04-05 12:46:35 CST)" 
raised an exception 
Traceback (most recent call last): 
File 
"C: \Users\xx\AppData\Local \ Programs \python\python36\1lib\site-packages\apschedu 
ler\executors\base.py", line 125, in run job 
retval = job.func(*job.args, **job.kwargs) 
File "C:/Users/xx/PycharmProjects/mysite/staff/test2.py", line 7, in aps test 
print (1/0) 
ZeroDivisionError: division by zero 


可 以 看 出 每 5 秒 抛 出 一 次 报错 信息 。 任何 代码 都 可 能 会 抛 出 异常 , 关键 是 如 何 第 一 时 间 知 
道 发 生 导 常事 件 ， APScheduler 提供 了 事件 监听 来 解决 这 一 问题 。 
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将 上 述 代 码 稍 做 调整 ， 加 入 日 志 记录 和 事件 监听 。 
【示例 7-5】 在 调度 器 中 加 入 事件 监听 (listen_event.py)。 


1 # coding:utf-8 

2 from apscheduler.schedulers.blocking import BlockingScheduler 

3 from apscheduler.events import EVENT JOB EXECUTED, EVENT JOB ERROR 
4 import datetime 

5 import logging 

6 
7 


logging.basicConfig (level=logging. INFO, 


8 
format-'$(asctime)s %(filename)s[line:%(lineno)d] $(levelname)s %(message)s', 
9 datefmt-'$Y-$m-$d %H:%M:%S', 
10 filename-'logl.txt', 
au filemode-'a') 
12 
13 
14 def aps test (x): 
15 print (datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), x) 
16 
"y 
18 def date test(x): 
19 print (datetime.datetime.now().strftime('$Y-$m-$d $H:$M:$S'), x) 
20 print (1/0) 
21 
22 
23 def my listener (event): 
24 if event.exception: 
25 print (" 任 务 出 错 了 ! ! ! 1 ri! ir) 
26 else: 
27 print (' 任 务 照 常 运行 ...') 
28 


29 scheduler = BlockingScheduler () 

30  scheduler.add job(func=date test，args=(' 一 次 性 任务 ,会 出 错 ', ) ， 

next run time=datetime.datetime.now() + datetime.timedelta(seconds=15), 
id-'date task') 

31  scheduler.add job(func-aps test, args=(' MEZ ',), trigger-'interval', 
seconds=3, id-'interval task') 

32  scheduler.add listener(my listener, EVENT JOB EXECUTED | EVENT JOB ERROR) 
33 scheduler. logger - logging 


34 
S5 scheduler.start () 
代码 说 明 : 


e 第 7~11 行 配 置 日 志 记 录 信 息 ,日 志文 件 在 当前 路 径 ， 文件 名 为 “logl.txt”。 
€ 第 33 行 启用 scheduler 模块 的 日 记 记录 。 

© 第 23~27 行 定义 一 个 事件 监听 ， 出 现 意 外 情况 打印 相关 信息 报警 。 

运行 结果 如 下 : 
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2018-04-05 12:59: 
任务 照常 运行 - - - 
2018-04-05 12:59: 
任务 照常 运行 .. - 
2018-04-05 12:59: 
任务 照常 运行 . . . 
2018-04-05 12:59: 
任务 照常 运行 . . - 
2018-04-05 12:59: 


2018-04-05 12:59 
任务 照常 运行 . . - 
2018-04-05 12:59: 
任务 照常 运行 . . . 
2018-04-05 12:59: 
任务 照常 运行 . . . 


在 生产 环境 中 ， 
可 以 马上 知道 。 


29 循环 任务 
32 循环 任务 
35 循环 任务 
38 循环 任务 
41 一 次 性 任务 ,会 出 错 


:41 循环 任务 


44 循环 任务 
47 循环 任务 


可 以 把 出 错 信息 换 成 发 送 一 封 邮件 或 一 条 短信 , 这 样 定时 任 
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务 一 旦 出 错 就 
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执行 证 程 命 窑 (Paramiko) 


Paramiko 是 一 个 SSHv2 协议 的 Python 实现 ,提供 客户 端 和 服务 器 的 功能 。 虽然 它 利 用 了 
Python C 扩展 来 实现 低级 别 加 密 CEW) , fH Paramiko 本 身 就 是 一 个 纯 Python 接口 ， 使 用 
Paramiko 可 以 方便 地 通过 SSH 协议 执行 远程 主机 的 程序 或 脚本 ， 获 取 输 出 结果 和 返回 值 。 虽 
然 我 们 可 以 使 用 expect 或 SSH 授信 来 达到 相应 的 执行 远程 主机 的 效果 , 但 Paramiko 则 不 需要 
额外 的 配置 ， 使 用 起 来 更 加 简洁 优雅 ， 而 且 在 运 维 中 的 调度 平台 将 会 非常 实用 。 假 如 有 一 个 调 
度 工 具 想 调 度 远程 主机 的 程序 或 脚本 ， 却 又 不 想 在 远程 主机 上 部 署 调度 工具 的 agent， 就 可 以 
通过 Paramiko 来 封装 命令 ， 以 达到 远程 调度 的 效果 。 

由 于 Paramiko 是 使 用 纯 Python 实现 的 ， 所 以 所 有 Python 支持 的 平台 ， 如 Linux. Solaris, 
BSD, MacOS X. Windows 等 ，Paramiko 都 可 以 支持 。 如 果 需 要 使 用 SSH 从 一 个 平台 连接 到 
另外 一 个 平台 进行 一 系列 的 操作 时 ，paramiko 是 最 佳 工具 之 一 


介绍 几 个 重要 的 类 


8.1.1 ii (Channel) 类 


ii (Channel) 类 是 对 SSH2 Channel 的 抽象 类 ， 是 跨 SSH 传输 的 安全 隧道 。 隧 道 的 作 
类 似 于 套 接 字 ， 并且 与 Python 套 接 字 API 十 分 类 似 。 因 为 SSHv2 协议 有 一 种 流动 窗口 控制 
机 制 ， 如 果 停 止 从 一 个 通道 读 取 数 据 ， 并 且 这 个 通道 的 缓冲 区 已 满 ， 那 么 服务 器 将 不 会 往 此 通 
道 发 送 任何 数据 , 但 是 这 并 不 会 影响 同一 传输 上 的 其 他 通道 (单个 传输 上 的 所 有 通道 都 是 独立 
的 流量 控制 通道 ) 。 类 似 地 ， 如 果 服 务 器 没有 读 取 客 户 端 发 送 的 数据 ， 那 么 客户 端的 发 送 调用 
[能 会 阻塞 ,除非 设置 了 超时 ， 这 与 正常 的 网 络 套 接 字 完 全 一 致 。 通 道 Channel 类 的 实例 常用 
于 上 下 文 管理 。 

通道 (Channel)〉 类 提供 的 方法 中 常用 的 有 以 下 几 个 。 
© close: 关闭 Channel， 关 闭 后 任何 对 Channel 的 读 写 操作 均 会 失败 。 远 程 节点 将 不 
能 接收 数据 。Channel 在 传输 完成 或 垃圾 收集 时 自动 关闭 。 
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€ exec command(*args, **kwds): 在 服务 端 执行 命令 ， 如 果 服 务 端 许 可 ， 则 Channel 将 
直接 连接 所 执行 命令 的 标准 输入 、 标 准 输出 及 标准 错误 输出 。 当 命令 执行 完毕 后 ， 
channel 将 被 关闭 ， 并 不 再 复 用 。 如 果 想 执行 另 一 个 命令 ， 则 需要 新 开 一 个 Channel. 
当 请 求 服务 器 被 拒绝 或 Channel 被 关闭 时 ， 将 抛 出 SSHException 异常 。 

€ exit status ready(): 该 方法 检查 服务 端 进程 是 否 退出 ， 如 果 进 程 已 经 执行 完 并 退出 ， 
则 返回 True， 和 否则 返回 False。 当 程序 不 想 在 recv exit status 方法 中 阻塞 时 ， 可 以 用 
此 方法 来 拉 取 进程 状态 。 

€ recv exit status(): 从 服务 器 上 的 进程 返回 退出 状态 . 这 对 于 检索 exec command 的 结 
果 非 常 有 用 。 如 果 命令 还 没有 完成 ， 这 个 方法 将 一 直 等 到 完成 ， 或 者 直到 通道 关闭 。 
如 果 exec_command 运行 结束 ， 而 服务 器 没有 提供 退出 状态 ， 则 返回 -1。 


8.1.2 传输 (Transport) 类 


传输 (Transport) 类 是 核心 协议 的 实现 类 ，SSH 传输 连接 到 流 〈 通 常 是 套 接 字 ) ， 协 商 加 
密 的 会 话 ， 进 行 身份 验证 ,然后 在 会 话 之 间 创 建 流 隧道 ( 称 为 通道 ) 。 多 个 通道 可 以 跨 单个 会 
话 进 行 多 路 复 用 。Transport 类 的 构造 函数 如 下 : 

init (sock, default window size=2097152, default max packet size=32768, 
gss kex-False, gss deleg creds-True) 

构造 函数 在 现 有 套 接 字 或 类 似 套 接 字 的 对 象 上 创建 新 的 SSH 会 话 。 它 只 会 创建 传输 对 象 ， 
并 不 启动 SSH 会 话 。 使 用 connect 或 start client 方法 启动 客户 端 会 话 ， 或 者 使 用 start server 
方法 启动 服务 器 会 话 。 参 数 sock 为 一 个 套 接 字 对 象 或 类 套 接 字 对 象 ， 如 果 sock 不 是 一 个 真正 
的 套 接 字 对 象 ， 那 么 它 至 少 需要 有 以 下 方法 。 

€ send(st) 写 入 一 定 长 度 的 字 节 数据 到 流 中 ， 返 回 写 入 流 的 字 节 数 ， 如 果 流 被 关闭 ， 

则 返回 0 或 抛 出 EOFError 异常 。 
€ recv(int): 从 流 中 读 取 固 定 字 节 的 数据 ， 返 回 读 取 的 字符 串 ， 如 果 流 被 关闭 ， 则 返回 
0 或 抛 出 EOFError 异常 。 

€ close(): 关闭 对 象 。 

€  settimeout(n): 设置 IO 操作 的 超时 时 间 。 

为 了 便于 使 用 ，sock 参数 还 可 以 传 入 元 组 〈 主 机 字符 串 ， 端 口 ) ， 一 个 套 接 字 将 连接 到 
这 个 地 址 和 端口 并 用 于 通信 ， 使 用 方法 如 下 所 示 。 
trans = paramiko.Transport (('192.168.195.129', 22)) 

参数 default window size 设置 默认 的 传输 窗口 的 大 小 ，default max packet size 设置 默认 
的 传输 数据 包 的 大 小 ， 这 两 个 参数 保持 默认 值 与 OpenSSH 代码 库 中 的 值 相同 ， 并 且 经 过 严格 
测试 ， 使 用 时 一 般 不 需要 修改 。 

传输 (Transport) 类 提供 的 connect 方法 ， 其 函数 原型 为 : 


connect (hostkey=None, username-'', password=None, pkey=None, gss host-None, 
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gss auth-False, gss kex-False, gss deleg creds-True, gss trust dns-True) 


本 方法 启动 一 个 SSH2 会 话 ， 可 以 选择 使 用 公 钥 或 用 户 名 、 密 码 进行 身份 验证 。 使 用 方法 


如 下 : 
# 方 法 一 


trans = paramiko.Transport(('192.168.195.129', 22)) 


建立 连接 ， 使 用 用 户 名 密码 进行 身份 验证 
trans.connect (username-'aaron', password-'aaron') 


# 方 法 二 


pkey = paramiko.RSAKey.from private key file('/home/aaron/.ssh/id rsa') 


# 建 立 连接 使 用 公 钥 进行 身份 验证 


transport = paramiko.Transport(('192.168.195.129',22)) 


transport.connect (username-'aaron',pkey-pkey) 


8.1.3 SSHClient 类 


SSHClient 类 使 用 SSH 服务 器 的 会 话 高 级 表示 形式 。 这 个 类 将 传输 类 、 通 道 类 和 SFTPClient 


包装 起 来 ， 以 处 理 验证 和 打开 通道 。 例 如 : 


client = SSHClient() 
client.load system host keys () 
client.connect ('ssh.example.com') 


stdin, stdout, stderr = client.exec command('ls -1') 


常用 的 方法 如 下 。 
(D connect 方法 ， 原 型 如 下 : 


connect (hostname, port=22, username=None, password=None, pkey=None, 

key filename=None, timeout=None, allow agent=True, look for keys=True, 
compress=False, sock=None, gss auth=False, gss kex=False, gss deleg creds=True, 
gss host=None, banner timeout=None, auth timeout=None, gss trust dns=True, 


passphrase=None) 


我 们 可 以 通过 传输 参数 username. password 进行 身份 验证 ， 也 可 以 传 入 pkey 使 用 公 钥 进 


行 身份 验证 .默认 机 制 是 尝试 使 用 本 地 密 钥 文件 或 SSH ARH 
方法 的 使 用 可 以 参考 传输 (Transport) 类 的 connect 方法 。 


(2) exec command 方法 ， 原 型 如 下 : 


BC 如果 正 在 运行 ) 进 行 验证 。connect 


exec command(command, bufsize--1, timeout=None, get_pty=False, environment=None) 


该 方法 在 SSH 服务 器 上 执行 命令 ， 打 开 一 个 新 通道 并 


和 输出 及 错误 输出 流 作为 Python 的 对 象 stdin、stdout 和 stderr 来 返回 。 若 想 获取 命令 的 返 


值 ， 则 调用 : 


returncode = stdout.channel.recv exit status() 


执行 所 请 求 的 命令 ， 该 命令 的 输入 


n 


recv exit status() 方 法 阻塞 当前 进程 ， 直 到 command 命令 执行 完成 ， 并 获取 command 的 


返回 值 。 
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exec_command 方法 的 使 用 实例 如 下 所 示 。 


stdin, stdout, stderr = client.exec command (command) 
data = stdout.read() 
returncode = stdout.channel.recv exit status () 
if len(data) > 0: 
print (data.decode ('utf-8').strip()) 
err = stderr.read() 
if len(err) > 0: 
print (err.decode ('utf-8').strip()) 
print (" 返 回 值 : ",returncode) 


DoDpwawmmwnb 


e e 2 Paramiko 的 使 用 


8.2.1 安装 
使 用 pip 安装 Paramiko 非常 简单 ， 执 行 下 述 命令 即 可 。 
pip instsll paramiko 
pip 会 自动 安装 Paramiko 所 依赖 的 包 。 如 果 要 离线 安装 ， 则 先 使 用 pip FAX. 


mkdir paramiko && cd paramiko # 创 建 一 个 目录 存放 安装 包 
pip download paramiko # 下 载 到 paramiko 中 ， 并 传输 至 离线 环境 
pip install paramiko -no-index -f paramiko # 离 线 环境 下 在 目录 paramiko 中 检索 安装 包 


8.22 ”基于 用 户 名 和 密码 的 SSHClient 方式 登录 
编程 步骤 如 下 : 


(1) 初始 化 一 个 SSHClient 类 的 实例 。 
(2) 调用 connect 方法 连接 远程 主机 。 
G) 执行 命令 获取 输出 结果 和 返回 值 ， 关 闭 连接 。 


【示例 8-1】 使 用 用 户 名 密码 登录 远程 服务 并 执行 命令 (paramiko user pwd.py) 。 


1 «c coding: utf 0 x 

2 # File Name: paramiko user pwd.py 

3 # Description: 使 用 用 户 名 密码 来 登录 并 执行 远程 命令 
4 import paramiko 
S 
6 
7 
8 


# 建立 一 个 sshclient HR 

ssh = paramiko.SSHClient () 

+ 将 信任 的 主机 自动 加 入 到 host allow 列表 ， 须 放 在 connect 方法 前 面 
9 ssh.set missing host key policy (paramiko.AutoAddPolicy()) 
10 £ 调用 connect 方法 连接 服务 器 


11 ssh.connect (hostname-"192.168.195.129", port=22, username="aaron", 
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password="aaron") 

12 # 执行 命令 

13 stdin, stdout, stderr = ssh.exec command("echo “date* && ls -ltr") 
14 + 结果 放 到 stdout 中 ， 如 果 有 错误 ， 就 放 到 stderr 中 

15 print (stdout.read() .decode("utf-8")) 

16 £ 

17 returncode - stdout.channel.recv exit status() 

18 print ("returncode:", returncode) 


19 # 关闭 连接 
20 ssh.close() 

运行 结果 如 下 : 
Thu Aug 23 21:57:05 CST 2018 
Filesystem Size Used Avail Uses Mounted on 
udev 708M 0 708M 0% /dev 
tmpfs 147M 6.8M 140M 5% /run 
/dev/sdal 19G 9.2G 8.5G 53% / 
tmpfs 734M 280K 734M 1% /dev/shm 
tmpfs 5.0M 4.0K 5.0M 1% /run/lock 
tmpfs 734M 0 734M 0% /sys/fs/cgroup 
tmpfs 147M 72K 147M 1% /run/user/1000 


returncode: 0 


本 方法 是 传统 的 连接 服务 器 、 执 行 命令 、 关 闭 一 个 操作 ， 有 时 候 需要 登录 上 服务 器 执行 多 
个 操作 ， 如 执行 命令 、 上 传 /下 载 文件 ， 该 方法 则 无 法 实现 ， 可 以 通过 下 面 的 方法 来 操作 。 


8.23 ”基于 用 户 名 和 密码 的 Transport 方式 登录 并 实现 上 传 与 下 载 
编码 步骤 如 下 : 


(1) 实例 化 一 个 Transport 的 实例 ， 并 调用 connect 方法 连接 远程 主机 。 
(2) 实例 化 一 个 SSHClient 的 实例 ， 指 定 其 _transport 为 步骤 1 的 实例 。 
(3) 实例 化 一 个 sftp 对 象 ， 指 定 连接 的 通道 为 步骤 1 的 实例 。 
(4) 执行 命令 或 sftp 上 传 下 载 命令 。 
(5) 关闭 连接 。 
【示例 8-2】 使 用 transport 方式 (transport upload download.py) 。 

# -*- coding: utf-8 -*- 

#Time: 2018/8/23 22:07:12 


#Description: 
#File Name: transport upload download.py 


import paramiko 


trans = paramiko.Transport(('192.168.195.129', 22)) 
# 建立 连接 , 指定 SSHClient 的 transport 

10 trans.connect (username-'aaron', password-'aaron') 
11 ssh = paramiko.SSHClient () 


Q0 -1 0 O &Q I-| 
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12 ssh- transport = trans 

13 £ 执行 命令 ， 与 传统 方法 一 样 

14 stdin, stdout, stderr = ssh.exec command('echo “date* && df -hl') 
T5 print (stdout .read() .decode ('utf-8')) 

16 

17 4 实例 化 一 个 sftp 对 象 , 指定 连接 的 通道 

18 sftp = paramiko.SFTPClient.from transport (trans) 

19 # 发 送 文件 

20 sftp.put(localpath-'./transport upload download.py', 

21 remotepath='/tmp/transport upload download tmp.py') 
22 + 下 载 文件 

23 # sftp.get(localpath-'./transport upload download.py', 

24 £4 remotepath-'/tmp/transport upload download tmp.py') 
25 stdin, stdout, stderr = ssh.exec command('ls -ltr /tmp') 
26 print(stdout.read().decode('utf-8')) 


27 + 关闭 连接 
28 trans.close() 

运行 结果 如 下 : 
Thu Aug 23 22:19:38 CST 2018 
Filesystem Size Used Avail Use% Mounted on 
udev 708M 0 708M 0% /dev 
tmpfs 147M 6.8M 140M 5% /run 
/dev/sdal 19G 9.2G 8.5G 53% / 
tmpfs 734M 284K 734M 1$ /dev/shm 
tmpfs 5.0M 4.0K 5.0M 1$ /run/lock 
tmpfs 734M 0 734M 0% /sys/fs/cgroup 
tmpfs 147M 72K 147M 1% /run/user/1000 
total 28 
drzna 3 root root 4096 Aug 23 21:19 


systemd-private-656dd4d9ffdb4b7e8fccb68b8ef8b086-systemd-timesyncd.service-O8W 
NmY 
drwxrwxrwt 2 root root 4096 Aug 23 21:19 VMwareDnD 


KI EE 2 root root 4096 Aug 23 21:19 vmware-root 

(liste 3 root root 4096 Aug 23 21:19 
systemd-private-656dd4d9ffdb4b7e8fccb68b8ef8b086-rtkit-daemon.service-ADfGZa 
(Sim 3 root root 4096 Aug 23 21:19 
systemd-private-656dd4d9ffdb4b7e8fccb68b8ef8b086-colord.service-wmyj3r 

GE Ware 2 aaron aaron 4096 Aug 23 21:26 vmware-aaron 


-rw-rw-r-- 1 aaron aaron 974 Aug 23 22:19 transport upload download tmp.py 


8.24 ”基于 公 钥 密 钥 的 SSHClient 方 式 登录 


有 些 场景 下 ， 两 台 主机 已 经 做 过 SSH 授信 ， 此 时 不 需要 密码 即 可 登录 。 例 如 ， 若 主机 A 
不 需要 密码 即 可 登录 主机 B. 执行 命令 , 则 在 主机 A 上 使 用 paramiko 时 只 需要 指定 A 的 公 钥 路 
径 即 可 。 
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【示例 8-3 】 基于 公 钥 密 钥 方式 (sshclient public key.py) 。 


$ —*— coding: utf-8 —*— 

#Time: 2018/8/23 22:28:37 
#Description: 实现 公 钥 登录 

#File Name: sshclient public key.py 
import paramiko 


+ 指定 本 地 的 RSA 私 钥 文 件 , 如 果 建 立 密 钥 对 时 设置 的 有 密码 ， 则 提供 password 参数 即 可 ， 否 则 不 提 


pkey = paramiko.RSAKey.from private key file('/home/aaron/.ssh/id rsa') 
# 建 立 连接 
ssh = paramiko.SSHClient () 
ssh.set missing host key policy (paramiko.AutoAddPolicy()) 
ssh.connect (hostname-'192.168.195.129', 
port-22, 
username-'aaron', 
pkey-pkey) 
# 执行 命令 
stdin, stdout, stderr = ssh.exec command('echo ^"date^ && df -hl') 
# 输出 
print (stdout.read() .decode ('utf-8')) 
+ 关闭 连接 


ssh.close() 


8.25 ”基于 公 钥 密 钥 的 Transport 方式 登录 


war sane wn 


【示例 8-4】 基于 公 钥 密 钥 的 Transport 方式 (sshclient_public_key.py) 。 


# —*- coding: utf-8 —*— 

#Time: 2018/8/23 22:28:37 
#Description: 实现 公 钥 登录 

#File Name: transport public key.py 
import paramiko 


# 指定 本 地 的 RSA 私 钥 文 件 , 如 果 建 立 密 钥 对 时 设置 的 有 密码 ， 则 提供 password 参数 即 可 ， 否 则 不 提 


pkey = paramiko.RSAKey.from private key file('/home/aaron/.ssh/id rsa') 
# 建 立 连接 
transport = paramiko.Transport(('192.168.195.129',22)) 
transport.connect (username-'aaron',pkey-pkey) 

ssh = paramiko.SSHClient () 

Ssh. transport - transport 


# 执行 命令 

stdin, stdout, stderr = ssh.exec command('echo ‘date’ && df -hl') 
# 输出 

print (stdout.read() .decode ('utf-8')) 

+ 关闭 连接 


transport.close() 


上 述 代码 同样 可 加 以 入 sftp IEE AR RNA, ie HLA SE. 
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第 9 章 
分 布 式 任务 队 引 Celery 


随 着 信息 时 代 的 持续 发 展 ， 越 来 越 复杂 的 业务 需求 对 自动 化 运 维 的 要 求 上 了 一 个 新 的 台 
Wr. 任务 调度 系统 也 由 单一 主机 任务 调度 系统 向 分 布 式 任务 调度 系统 过 渡 。 无 论 是 业务 层面 的 
作业 调度 还 是 运 维 本 身 的 作业 调度 需求 , 分 布 式 的 任务 也 越 来 越 普及 。 本 章 将 介绍 一 个 非常 优 
秀 的 开源 分 布 式 任务 队列 一 一 Celery。Celery 是 一 个 简单 、 灵 活 且 可 靠 的 ， 可 以 处 理 大 量 消息 
的 分 布 式 系统 , 并 且 提供 了 维护 这 样 一 个 系统 的 必需 工具 。 它 是 一 个 专注 于 实时 处 理 的 任务 队 
列 ， 同 时 也 支持 任务 调度 。 


Celery 简介 


Celery 是 由 纯 Python 编写 的 ， 但 协议 可 以 用 任何 语言 实现 。 目 前 ， 已 有 Ruby 实现 的 
RCelery „Node.js 实现 的 node-celery 及 一 个 PHP 客户 端 ,语言 互通 也 可 以 通过 using webhooks 
实现 。 在 使 用 Celery 之 前 ， 我 们 先 来 了 解 以 下 几 个 概念 : 

任务 队列 : 简单 来 说 ， 任 务 队列 就 是 存放 着 任务 的 队列 ， 客 户 端 将 要 执行 任务 的 消息 放 
入 任务 队列 中 ,执行 节点 worker 进程 持续 监视 队列 ， 如 果 有 新 的 任务 ， 就 取出 来 执行 该 任务 。 
这 种 机 制 就 像 生 产 者 、 消 费 者 模型 一 样 ， 客 户 端 作 为 生产 者 ， 执 行 节点 worker 作为 消费 者 ， 
它们 之 前 通过 任务 队列 进行 传递 ， 如 图 9.1 所 示 。 


中 间 人 -broker 


worker 


Eo NIV ==> 


图 9.1 任务 队列 


HEJA (broker) : Celery 用 于 消息 通信 ， 通 常 使 用 中 间 人 (broker) 在 客户 端 和 worker 
之 前 传递 ， 这 个 过 程 从 客户 端 向 队列 添加 消息 开始 ， 之 后 中 间 人 把 消息 派送 给 worker. ‘77 
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给 出 的 实现 broker 的 工具 可 参见 表 9-1. 


#9-1 实现 broker 的 工具 


名 称 状态 监 x 
RabbitMQ 稳定 是 是 
Redis 稳定 是 是 
Mongo DB 实验 性 是 是 
Beanstalk 实验 性 否 否 
Amazon SQS 实验 性 8 a 
Couch DB 实验 性 8 a 
Zookeeper 实验 性 否 a 
Django DB 实验 性 8 8 
SQLAlchenr 实验 性 8 

Iron MQ BH 
E 在 实际 使 用 中 ， 我 们 选择 RabbitMQ 或 Redis 作为 中 间 人 。 | 


e 任务 生产 者 : 调用 Celery 提供 的 API、 函 数 、 装 饰 器 产生 任务 并 交 给 任务 队列 的 都 
是 任务 生产 者 。 

© 执行 单元 worker: 属于 任务 队列 的 消费 者 ， 持 续 地 监控 任务 队列 ， 当 队列 中 有 新 的 
任务 时 ， 便 取出 来 执行 。 

© 任务 结果 存储 backend: 用 来 存储 worker 执行 任务 的 结果 ，Celery 支持 不 同 的 方式 
存储 任务 的 结果 ， 包 括 AMQP., Redis, memcached, MongoDB. SQLAlchemy 等 。 

€ FAAS Beat: Celery Beat 进程 会 读 取 配 置 文件 的 内 容 ， 周 期 性 的 将 配置 中 到 期 
需要 执行 的 任务 发 送 给 任务 队列 。 

Celery 还 有 以 下 特性 。 

e ”高 可 用 性 : 如 果 连 接 丢 失 或 失败 ，worker 和 客户 端 就 会 自动 重 试 ， 并 且 中 间 人 通过 
主 / 主 ， 主 /从 方式 来 提高 可 用 性 。 

€ Rik: 单个 Celery 进程 每 分 钟 执行 数 以 百 万 计 的 任务 ， 且 保持 往返 延迟 在 亚 毫秒 级 
(使 用 RabbitMQ. py-librabbitmq 和 优化 过 的 设置 ) ， 可 以 选择 多 进程 、Eventlet 和 
Gevent 三 种 模式 并 发 执行 。 

@ RE: Celery 几乎 所 有 模块 都 可 以 扩展 或 单独 使 用 。 可 以 自制 连接 池 、 序列 化 、 压 
EA. HS. ARS. HRA. EPH. BTR. 中 间 人 传输 或 更 多 。 

€ 框架 集成 : Celery 易于 与 Web 框架 集成 ， 其 中 的 一 些 甚至 已 经 有 了 集成 包 ， 如 
django-celery. pyramid celery、celery-pylons、web2py-celery、tomado-celery。 因 此 ， 
学 习 Celery 具有 很 强 的 实用 价值 。 

@ 强大 的 调度 功能 : Celery Beat 进程 来 实现 强大 的 调度 功能 ， 可 以 指定 任务 在 若干 秒 
后 或 指定 一 个 时 间 点 (datetime 类 ) 来 运行 ,也 可 以 基于 单纯 的 时 间 间 隔 或 支持 分 钟 、 
小 时 、 每 周 的 第 几 天 、 每 月 的 第 几 天 以 及 每 年 的 第 几 个 月 的 crontab 表达 式 来 使 用 周 
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期 任务 调度 。 

e PER: 可 以 方便 地 查看 定时 任务 的 执行 情况 ， 如 执行 是 否 成 功 、 当 前 状态 、 完 成 
任务 花费 的 时 间 等 , 还 可 以 使 用 功能 完备 的 管理 后 台 或 命令 行 添 加 、 更新、 删除 任务 ， 
提供 完善 的 错误 处 理 机 制 。 


9 ° 2 安装 Celery 


我 们 可 以 从 Python Package Index (PyPI) 安装 或 者 使 用 源 代 码 安装 Celery， 推 荐 使 用 pip 
安装 。 
使 用 pip 安装 : 
pip install celery 
使 用 源 代 码 安装 Chttp://pypi._python.org/pypi/celery/) 。 


$ tar xvfz celery-0.0.0.tar.gz 

$ cd celery-0.0.0 

$ python setup.py build 

# python setup.py install # 这 里 如 果 不 是 在 virtualenv 中 安装 ， 就 需要 使 用 root 权限 安装 
Celery 也 定义 了 一 组 用 于 安装 celery 和 给 定 特性 依赖 的 捆绑 。 我 们 可 以 在 requirements.txt 中 指 
ERE pip 命令 中 使 用 方 括号 。 多 个 捆绑 用 逗号 分 隔 ， 如 下 : 

$ pip install celery[librabbitmq] 

$ pip install celery[librabbitmq, redis, auth, msgpack] 


以 下 是 可 用 的 捆绑 ， 供 使 用 时 做 参考 。 
a) 序列 化 
€ = celery[auth]: 使 用 auth 序列 化 。 


€ celery[msgpack]: 使 用 msgpack 序列 化 。 
€ celery[yaml]: 使 用 yaml 序列 化 。 


(2) 并 发 


@ celery[eventlet]: 使 用 eventlet 池 。 
€ celery[gevent]: 使 用 gevent 池 。 
€ celery[threads]: 使 用 线程 池 。 


(3) 传输 和 后 端 

celery[librabbitmq]: 使 用 librabbitmq 的 C Æ. 

celery[redis]: 使 用 Redis 作为 消息 传输 方式 或 结果 后 端 。 

celery[mongodb]: 使 用 MongoDB 作为 消息 传输 方式 ( 实验 性 ) 或 结果 后 端 (已 支持 )。 
celery[sqs]: 使 用 AmazonSQS 作为 消息 传输 方式 (实验 性 ) 。 
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celery[memcache]: 使 用 memcache 作为 结果 后 端 。 
celery[cassandra]: 使 用 ApacheCassandra 作为 结果 后 端 。 
celery[couchdb]: 使 用 CouchDB 作为 消息 传输 方式 ( 实验 性 ) 。 
celery[couchbase]: 使 用 CouchBase 作为 结果 后 端 。 
celery[beanstalk]: 使 用 Beanstalk 作为 消息 传输 方式 (实验 性 ) 。 
celery[zookeeper]: 使 用 Zookeeper 作为 消息 传输 方式 。 
celery[zeromq]: 使 用 ZeroMQ 作为 消息 传输 方式 ( 实验 性 ) 。 
celery[sqlalchemy]: 使 用 SQLAlchemy 作为 消息 传输 方式 (实验 性 ) 或 结果 后 端 (已 
支持 ) 。 

celery[pyro]: 使 用 Pyro4 消息 传输 方式 ( 实验 性 ) 。 

© celery[slmq]: 使 用 SoftLayerMessageQueue 传输 ( 实验 性 ) 。 


安装 RabbitMQ 或 Redis 
这 两 个 中 间 人 是 比较 适合 生产 环境 使 用 的 ， 现 在 分 别 介绍 其 安装 方法 。 


9.3.1 安装 RabbitMQ 

以 Ubuntu 为 例 ， 其 他 操作 系统 可 参考 RabbitMQ 官网 。 

首先 安装 erlang。 由 于 RabbitMQ 需要 Erlang 语言 的 支持 ， 因 此 在 安装 RabbitMQ 之 前 需 
要 安装 Erlang。 执 行 
sudo apt-get install erlang-nox 

再 安装 RabbitMQ. 


sudo apt-get update 
sudo apt-get install rabbitmq-server 


启动 、 关 闭 、 重 启 、 状 态 RabbitMQ 命令 。 


sudo rabbitmq-server start das 
sudo rabbitmq-server stop  4-XHl 

sudo rabbitmq-server restart # 重 启 
sudo rabbitmqctl status HEERS 


要 使 用 Celery, 需要 创建 一 个 RabbitMQ 用 户 和 虚拟 主机 , 并 且 允 许 用 户 访问 该 虚拟 主机 。 


$ sudo rabbitmqctl add user myuser mypassword 
$ sudo rabbitmqctl add vhost myvhost 
$ sudo rabbitmqctl set permissions -p myvhost myuser ".*" ".*" n,*" 


RabbitMQ 是 默认 的 中 间 人 的 URL 位 置 ， 生 产 环境 根据 实际 情况 修改 即 可 。 


BROKER URL = 'amqp://guest:guest@localhost:5672//' 
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9.3.2 安装 Redis 


这 里 仍 以 Ubuntu 为 例 。 

REmote DIctionary Server (Redis) 是 一 个 由 Salvatore Sanfilippo 写 的 key-value 存储 系统 。 
Redis 是 一 个 开源 的 使 用 ANSI C 语言 编写 、 遵 守 BSD 协议 、 支 持 网 络 、 可 基于 内 存 亦 可 持久 
化 的 日 志 型 、Key-Value 数据 库 ， 并 提供 多 种 语言 的 API， 通 常 被 称 为 数据 结构 服务 器 ， 它 的 
值 (value) 可 以 是 字符 串 (String) 、 哈 希 (Map) 、 列 表 Aist) . HA (sets) 和 有 序 集合 

(sorted sets) 等 类 型 。Redis 性 能 极 高 ， 读 的 速度 是 110000 次 /s， 写 的 速度 是 81000 次 /s， 非 
常 适合 作 消 息 队列 。 

在 Ubuntu 系统 安装 Redis 可 以 使 用 以 下 命令 : 
$sudo apt-get update 
$sudo apt-get install redis-server 


启动 Redis: 


$ redis-server 
查看 Redis 是 否 启动 ; 
$ redis-cli 
上 面 的 命令 将 打开 以 下 终端 : 


redis 127.0.0.1:6379> 


其 中 127.0.0.1 是 本 机 瑟 ，6379 是 Redis 服务 端口 。 现 在 输入 ping 命令 : 
redis 127.0.0.1:6379> ping 
PONG 
以 上 说 明 已 经 成 功 安装 了 Redis。 也 可 以 通过 以 下 源 代码 安装 : 
$ wget http://download.redis.io/releases/redis-4.0.11.tar.gz 
$ tar xzf redis-4.0.11.tar.gz 
$ cd redis-4.0.11 
$ make 
make 完 后 redis-4.0.11 目录 下 会 出 现 编译 后 的 Redis 服务 程序 redis-server， 以 及 用 于 测试 
的 客户 端 程序 redis-cli， 两 个 程序 位 于 安装 目录 src 目录 下 。 
下 面 启动 Redis 服务 : 


$ cd sre 
$ ./redis-server 


注意 ， 这 种 方式 启动 Redis 使 用 的 是 默认 配置 ， 也 可 以 通过 启动 参数 通知 Redis 使 用 指定 
配置 文件 。 使 用 下 面 的 命令 启动 : 


$ cd ‘sre 
$ ./redis-server ../redis.conf 


redis.conf 是 一 个 默认 的 配置 文件 。 我 们 可 以 根据 需要 使 用 自己 的 配置 文件 。 
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启动 Redis 服务 进程 后 , 就 可 以 使 用 测试 客户 端 程序 redis-cli 和 Redis 服务 交互 了 。 例 如 : 


$ cd sre 

$ ./redis-cli 
redis> set foo bar 
OK 

redis> get foo 
"bar" 


说 明 安 装 成 功 。 
配置 Celery 的 BROKER_URL，Redis 默认 的 连接 URL 如 下 : 


BROKER URL = 'redis://localhost:6379/0' 


URL [iit redis://:password@hostname:port/db_number. URL Scheme 后 的 所 有 字段 都 
是 可 选 的 ， 并 且 默 认为 localhost 的 6479 端口 ， 使 用 数据 库 0。 


7.4. sg8—^ Celey 程序 


我 们 以 Redis 为 例 ， 首 先 修改 Redis 配置 文件 redis.conf， 修 改 bind = 127.0.0.0.1 WY bind = 
0.0.0.0， 意 思 是 允许 远程 访问 Redis 数据 库 。 接 下 来 启动 Redis〈 以 Ubuntu 为 例 ) : 


service redis-server restart #sudo apt-get 安装 启动 
redis-path/src/redis-server ../redis.conf #RE ZFA) 

启动 成 功 后 检查 : 
aaron@ubuntu:/etc$ ps -eflgrep redis 
redis 2745 1 0 22:24? 00:00:00 /usr/bin/redis-server 0.0.0.0:6379 
aaron 2752 2569 0 22:24 pts/1 00:00:00 grep --color-auto redis 

说 明 已 启动 成 功 。 


现在 来 编写 第 一 个 Celey 程序 。 
【示例 9-1】 第 一 个 Celey 程序 (my. first. celery.py) o 
#encoding=utf-8 
from celery import Celery 
import time 


import socket 


app = Celery('tasks', broker='redis://127.0.0.1:6379/0',backend 
'redis://127.0.0.1:6379/0' ) 


中 六 办 上 性 mb 


9 def get host ip(): 
10 "nn 
11 查询 本 机 ip 地 址 
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12 :return: ip 

13 "nn 

14 ERYS 

15 s = Socket.socket (socket.AF INET, socket.SOCK DGRAM) 
16 s.connect(('8.8.8.8', 80)) 
17 ip = s.getsockname () [0] 

18 finally: 

19 s.close() 

20 return ip 

21 

22 


23 @app.task 
24 def add(x, y): 
25 time.sleep (3) # 模拟 耗 时 操作 


26 s=x+y 

27 print ("主机 IP {}: x + y = {}".format(get host ip(),s)) 
28 return s 

29 


代码 说 明 :第 7 行 指定 了 中 间 人 broker 为 本 机 的 Redis 数据 库 0, 结 果 后 端 同样 使 用 Redis; 
第 9-20 行 定 义 了 一 个 获取 本 机 IP 地 址 的 函数 ， 为 后 序 分 布 式 队列 做 铺垫 ， 第 23 行 到 最 后 定 
义 了 一 个 模拟 虚 耗 时 的 任务 函数 ， 使 用 app.task 来 装饰 。 

接 下 来 启动 任务 执行 单元 worker。 


celery -A my first celery worker -1 info 

这 里 ，-A 表示 程序 的 模块 名 称 ，worker 表示 启动 一 个 执行 单元 ，-1 是 指 -level， 表 示 打 
印 的 日 志 级 别 。 可 以 使 用 celery -help 命令 查看 celery 命令 的 帮助 文档 。 

如 果 不 想 使 用 celery 命令 启动 worker， 则 可 直接 使 用 文件 驱动 ， 修 改 my first celery.py 
如 下 所 示 〈 增 加 入 口 函数 main) o 

【示例 9-2】 使 用 入 口 函 数 启 动 Celey (my_first_celery.py) 。 


#encoding=utf-8 


from celery import Celery 
import time 
import socket 


app = Celery('my first celery', broker='redis://127.0.0.1:6379/0',backend 
-'redis://127.0.0.1:6379/0' ) 


def get host ip(): 

"nn 

查询 本 机 ip 地 址 

:return: ip 

"nn 

try: 
s = socket .socket (socket.AF INET, socket.SOCK DGRAM) 
s.connect (('8.8.8.8', 80)) 
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ip = s.getsockname () [0] 
finally: 

s.close() 
return ip 


@app.task 
def add(x, y): 
time.sleep (3) # 模拟 耗 时 操作 


s=x+y 
print ("主机 IP (): x + y = {}".format(get host ip(),s)) 
return s 

if name == ' main ': 


app.start () 


然后 在 命令 行 中 执行 python my first celery2.py worker 即 可 。 启 动 后 的 界面 与 使 用 命令 
celery -A my first celery worker -l info 启动 的 结果 是 一 致 的 。 
aaron@ubuntu:~/project$ python my first celery2.py worker 


EUR celery@ubuntu v4.2.1 (windowlicker) 


--- * *** * —— Linux-4.10.0-37-generic-x86 64-with-Ubuntu-16.04-xenial 
2018-08-27 22:46:00 


Eme Ne. EN E 
一 ** 一 一 一 一 一 一 一 一 一 一 [config] 
一 ** 一 一 一 一 一 一 一 一 一 一 .> app: tasks:0x7flce0747080 
一 ** 一 一 一 一 一 一 一 一 一 一 .> transport:  redis://127.0.0.1:6379/0 
= .> results: redis://127.0.0.1:6379/0 
ate ea A i CORCIENONGY alm prefork) 
一 一 ******* 一 -一 一 .> task events: OFF (enable -E to monitor tasks in this worker) 
e M de A Y MI I oe 
-------------- [queues] 
.> celery exchange-celery (direct) key=celery 
[tasks] 


. my first celery.add 


[2018-08-27 22:46:00, 726: INFO/MainProcess] Connected to redis://127.0.0.1:6379/0 
[2018-08-27 22:46:00,780: INFO/MainProcess] mingle: searching for neighbors 
[2018-08-27 22:46:02,075: INFO/MainProcess] mingle: all alone 

[2018-08-27 22:46:02,125: INFO/MainProcess] celery@ubuntu ready. 


接 下 来 ， 编 写 程序 调用 任务 函数 start_task.py。 


from my first celery import add # 导 入 任务 函数 add 
import time 


result = add.delay(12,12) # 异 步调 用 ， 这 一 步 不 会 阻 寒 ， 程 序 会 立即 往 下 运行 
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while not result.ready () :# 循环 检查 任务 是 否 执行 完 
print (time.strftime ("%H:%M:%S")) 
time.sleep (1) 


print(result.get()) # 获 取 任 务 的 返回 结果 
print (result.successful () ) # 判 断 任务 是 否 成 功 执行 


执行 python start task.py 得 到 以 下 结果 : 


22:50:59 
22:51:00 
22:51:01 
24 

True 
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等 待 3 秒 后 ， 任 务 返 回 了 结果 24， 并 且 成 功 完 成 。 此 时 worker 界面 增加 的 信息 如 下 : 


[2018-08-27 22:50:58,840: INFO/MainProcess] Received task: 
my first celery.add[a0c4bb6b-17af-474c-9eab-407d593a7807] 
[2018-08-27 22:51:01,898: WARNING/ForkPoolWorker-1] 主机 IP 192.168.195.128: x+y 


三 ENS 


[2018-08-27 22:51:01,915: INFO/ForkPoolWorker-1] Task 
my first celery.add[a0c4bb6b-17af-474c-9eab-407d593a7807] succeeded in 


3.067237992000173s: 24 


其 中 a0c4bb6b-17af-474c-9eab-407d593a7807 是 taskid， 只 要 指定 了 backend， 根 据 这 个 
taskid 就 可 以 随时 去 backend 查找 运行 结果 。 使 用 方法 如 下 : 


>>> from my first celery import add 


>>> taskid- 'a0c4bb6b-17af-474c-9eab-407d593a7807"' 


>>> add.AsyncResult (taskid) .get () 
24 


或 者 : 


>>> from celery.result import AsyncResult 
>>> AsyncResult (taskid) .get () 
24 


名 .5 第 一 个 工程 项 目 


上 节 的 第 一 个 Celery 程序 非常 简单 ， 实 际 的 项 目 开发 应 该 是 模块 化 的 ， 程 序 的 功能 分 散 
在 多 个 文件 中 ，Celery 也 不 例外 。 下 面 扩展 第 一 个 Celery 程序 。 

新 建 myCeleryProj 目录 ， 并 在 myCeleryProj 目录 中 新 建 _init .py、app.py、settings.py、 
tasks.py fF. HP init. py 文件 保持 为 空 即 可 ， 其 作用 是 把 目录 myCeleryProj 作为 一 个 包 


让 Python 程序 导入 。 
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【示例 9-3】 第 一 个 工程 项 目 〈 目 录 myCeleryProj) 。 


app.py 是 celery worker 的 入 口 ， 如 下 所 示 。 


from future import absolute import 
from celery import Celery 
app = Celery ("myCeleryProj", include-["myCeleryProj.tasks"]) 


app.config from object ("myCeleryProj.settings") 


o 


if name ==" main ": 
app.start () 


task.py 主要 存放 具体 执行 的 任务 ， 如 下 所 示 。 


import os 

from myCeleryProj.app import app 
import time 

import socket 


FPReOEDAIDATBWNK 


已 


def get host ip(): 


DIHURWNE 


查询 本 机 ip 地 址 
:return: ip 


o 


[ET 
S = socket.socket(socket.AF INET, socket.SOCK DGRAM) 
s.connect (("8.8.8.8", 80)) 
ip = s.getsockname() [0] 
finally: 
s.close() 
return ip 


PRRRRPRER 
YHAUBWNHO 


BR 
*o o 


@app.task 
def add(x, y): 
time.sleep (3) # 模拟 耗 时 操作 
s=x+y 
print ("E#LIP {}: x + y = ()".format(get host ip(), s)) 
return s3 


NNNN 
UNEO 


N 
心 


@app.task 

def taskA(): 
time.sleep (3) 
print ("taskA") 


NNNNN 
0-100 


ww www 
PUNEO 


@app.task 

def taskB(): 

36 time.sleep (3) 
print ("taskB") 


w 
a 


w 
RE] 
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settings. py 存放 配置 信息 ， 如 下 所 示 。 


BROKER URL = 'redis://127.0.0.1:6379/0'## HH redis 作为 消息 代理 


CELERY RESULT BACKEND = 'redis://127.0.0.1:6379/0' # 任务 结果 存在 Redis 


own 


CELERY RESULT SERIALIZER = 'json' # 因为 读 取 任务 结果 一 般 性 能 要 求 不 高 ， 所 以 使 用 了 可 读 
性 更 好 的 JSON 

7 

8 CELERY TASK RESULT EXPIRES = 60 * 60 * 24 # 任务 过 期 时 间 ， 不 建议 直接 写 86400， 应 该 
让 这 样 的 magic 数字 表述 更 明显 

9 


下 面 运行 工程 项 目 ， 在 myCeleryProj 的 同 级 目录 下 执行 如 下 命令 。 


celery -A myCeleryProj.app worker -c 3 -1 info 


-c3 表示 启用 三 个 子 进程 执行 该 队列 中 的 任务 。 运 行 结果 如 下 : 


PE RT celery@ubuntu v4.2.1 (windowlicker) 


--- * *** * -- Linux-4.10.0-37-generic-x86 64-with-Ubuntu-16.04-xenial 
2018-08-28 20:26:31 


-— Act REM, c—— 
[config] 
.» app: myCeleryProj:0x7fflb4cl7da0 
.» transport:  redis://127.0.0.1:6379/0 
results: redis://127.0.0.1:6379/0 


-> 
.> concurrency: 3 (prefork) 
.> task events: OFF (enable -E to monitor tasks in this worker) 


S [queues] 
.> celery exchange=celery (direct) key=celery 


[tasks] 
. myCeleryProj.tasks.add 
. myCeleryProj.tasks.taskA 
. myCeleryProj.tasks.taskB 


[2018-08-28 20:26:32,074: INFO/MainProcess] Connected to redis://127.0.0.1:6379/0 
[2018-08-28 20:26:32,130: INFO/MainProcess] mingle: searching for neighbors 
[2018-08-28 20:26:33,212: INFO/MainProcess] mingle: all alone 
[2018-08-28 20:26:33,259: INFO/MainProcess] celery@ubuntu ready. 

更 多 启动 Celery worker 的 方法 如 下 。 

@ ”设置 处 理 任务 队列 的 子 进程 个 数 为 10。 
celery -A myCeleryProj.app worker -c10 -1 info 


© ”设置 处 理 任务 队列 为 web task . 


celery -A myCeleryProj.app worker -Q web task -1 info 
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e ”设置 后 台 运行 并 指定 日 志文 件 位 置 。 


celery -A myCeleryProj.app worker -logfile /tmp/celery.log -1 info -D 


Pe = 9 & celery worker 命令 的 帮助 请 使 用 celery worker —help. | 


现在 我 们 已 经 启动 了 worker， 从 运行 的 打印 输出 可 以 看 到 有 三 个 任务 : 
myCeleryProj.tasks.add、myCeleryProj.tasks.taskA 和 myCeleryProj.tasks.taskB。 接 下 来 手动 执行 
异步 调用 。 


>>> from myCeleryProj.tasks import * 

>>> add.delay (5, 6) ;taskA.delay () ;taskB.delay () 
<AsyncResult: fe7e3904-904b-4317-b1e8-74f572d1e48a» 
<AsyncResult: 5dbc4ble-53fe-4f05-8626-15b787a8c484» 
<AsyncResult: c88fc0b1-66b8-4046-9e93-2cb8a516efde» 
>>> 


这 里 add.delay(5,6):taskA.delay():taskB.delay() 写 在 一 行 是 在 于 同时 发 出 异步 执行 的 命令 。 
worker 界面 新 增 的 信息 如 下 : 


2018-08-28 20:53:58,633: INFO/MainProcess] Received task: 
myCeleryProj.tasks.add[fe7e3904-904b-4317-b1e8-74f572d1e48a] 

2018-08-28 20:53:58,679: INFO/MainProcess] Received task: 
myCeleryProj.tasks.taskA[5dbc4ble-53fe-4f05-8626-15b787a8c484] 

[2018-08-28 20:53:58,708: INFO/MainProcess] Received task: 
myCeleryProj.tasks.taskB[c88fc0b1-66b8-4046-9e93-2cb8a516efde] 

2018-08-28 20:54:01,663: WARNING/ForkPoolWorker-3] 主机 IP 192.168.0.109: x + y= 
11 

2018-08-28 20:54:01,695: INFO/ForkPoolWorker-3] Task 
myCeleryProj.tasks.add[fe7e3904-904b-4317-b1e8-74f572d1e48a] succeeded in 
3.035788317999959s: 11 

2018-08-28 20:54:01,725: WARNING/ForkPoolWorker-1] taskB 

2018-08-28 20:54:01,735: WARNING/ForkPoolWorker-2] taskA 

2018-08-28 20:54:01,806: INFO/ForkPoolWorker-1] Task 
myCeleryProj.tasks.taskB[c88fc0bl-665b8-4046-9e93-2cb8a516efde] succeeded in 
3.0824580290000085s: None 

2018-08-28 20:54:01,803: INFO/ForkPoolWorker-2] Task 
myCeleryProj.tasks.taskA[5dbc4ble-53fe-4f05-8626-15b787a8c484] succeeded in 
3.075650606000181s: None 


从 worker 界面 新 增 的 信息 中 可 以 看 出 ，worker 在 20:53:58 同时 收 到 了 三 个 任务 ， 由 于 并 
发 数 是 3， 且 三 个 任务 都 执行 了 等 待 3 秒 的 模拟 耗 时 操作 ， 因 此 它们 都 在 20:54:01 打印 了 相应 
的 信息 并 退出 。 读 者 可 以 将 并 发 数 设置 为 1 再 试验 一 下 运行 结果 。 

调用 task 的 方法 有 以 下 三 种 。 


(1) 使 用 apply_async(args[, kwargs[, ...]]) 发 送 一 个 task 到 任务 队列 ， 支 持 更 多 的 控制 ， 
如 add.apply async(countdown-10) 表示 执行 add 函数 的 时 间 限 制 最 多 为 10 秒 ; 
add.apply async(countdown-10, expires=120) 表 示 执 行 add 函数 的 时 间 限 制 最 多 为 10 秒 ，add 
函数 的 有 效 期 为 120 秒 ; add.apply_async(expires=now + timedelta(days=2)) 表 示 执 行 add 函数 的 
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有 效 期 为 两 天 。 使 用 apply_async 还 支持 回调 ， 假 如 任务 函数 如 下 : 


@app.task 
def add(x, y): 
return x + y 


那么 
add.apply async((2, 2), link=add.s(16)) 

就 相当 于 (2 +2)+ 16 =20. 

(2) 使 用 delay(*args, **kwargs)， 该 方法 是 apply_async 的 快捷 方式 ， 提 供 便捷 的 异步 调 

度 ， 但 是 如 果 想 要 更 多 的 控制 ， 就 必须 使 用 方法 1。 使 用 delay 就 像 调 用 普通 函数 那样 ， 非 常 
简便 ， 如 下 所 示 。 
task.delay(argl, arg2, kwargl-'x', kwarg2='y') 

如 果 使 用 方法 1， 则 不 得 不 写成 : 
task.apply async(args-[argl, arg2], kwargs-('kwargl': 'x', 'kwarg2': 'y'}) 


(3) 直接 调用 ， 相 当 于 普通 的 函数 调用 ， 不 在 worker 上 执行 。 


9 .6 Celery 架构 


前 两 节 对 Celery 应 用 程序 进行 了 初探 ， 对 Celery 程序 有 了 初步 的 了 解 后 ， 我 们 再 来 看 一 
下 Celery 的 架构 ， 将 有 助 于 深入 理解 Celery。Celery 的 架构 如 图 9.2 所 示 。 


结果 存储 
Backend 


中 间 人 
Broker 


图 9.2 Celery 的 架构 
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任务 生产 者 产生 任务 并 将 任务 发 送 到 中 间 人 ， 有 多 个 消费 者 ， 即 执行 单元 worker 持续 地 


监控 消息 中 间 人 ,如 有 属于 自己 队列 的 任务 需要 执行 , 就 从 中 间 人 那里 取出 作业 名 称 ， 查找 对 
应 的 函数 代码 并 执行 ， 执 行 完成 后 将 结果 存储 在 Backend。 这 里 的 Worker 可 以 分 布 式 部 署 ， 
彼此 之 间 是 独立 的 。 


任务 调度 器 Beat: Celery Beat 进程 会 读 取 配置 文件 的 内 容 ， 周 期 性 地 将 配置 中 到 期 需要 


执行 的 任务 发 送 给 中 间 人 。 


9. 7 Celery 队列 


Celery 非常 容易 设置 和 运行 ， 它 通常 会 使 用 默认 名 为 Celery 的 队列 (可 以 通过 


CELERY_DEFAULT_QUEUE 修改 ) 来 存放 任务 。Celery 支持 同时 运行 多 个 队列 ， 还 可 以 使 用 
优先 级 不 同 的 队列 来 确保 高 优先 级 的 任务 不 需要 等 待 就 立即 得 到 响应 。 


基于 9.5 节 使 用 的 工程 源 代 码 ， 我 们 来 实现 不 同 的 队列 来 执行 不 同 的 任务 : 使 任务 add 在 


队列 default 中 运行 ，taskA 在 队列 task A 中 运行 ，taskB 在 队列 task B 中 运行 。 


【示例 9-4】 定 义 三 个 队列 ， 并 将 任务 自动 的 分 配 到 相应 的 队列 中 (myCeleryProj 2) o 
首先 修改 配置 文件 settings.py。 


1 from kombu import Queue 


2 


3 CELERY QUEUES = ( # 定义 任务 队列 


4 


Queue ("default", routing key="task.#"), # 路 由 键 以 \task.“ 开 头 的 消息 都 进 


default 队列 


5 
6 
m) 
8 


Queue ("tasks A", routing key-"A.$"), # 路 由 键 以 \RA.“ 开 头 的 消息 都 进 tasks A 队列 
Queue ("tasks B", routing key="B.#"), # 路 由 键 以 \B.* 开 头 的 消息 都 进 tasks B 队列 


9 CELERY ROUTES = ( 


10 
11 


[ 
("myCeleryProj.tasks.add", ("queue": "default"}), # 将 add 任务 分 配 至 队列 


default 


12 
队列 
m3 

队列 


("myCeleryProj.tasks.taskA", {"queue": "tasks A"}),# 将 taskA 任务 分 配 至 
tasks A 
("myCeleryProj.tasks.taskB", ("queue": "tasks B"}),# 将 taskB 任务 分 配 至 
tasks B 
1, 
) 


BROKER URL = "redis://127.0.0.1:6379/0" 4 f&H redis 作为 消息 代理 
CELERY RESULT BACKEND = "redis://127.0.0.1:6379/0" # 任 务 结果 存在 Redis 


CELERY RESULT SERIALIZER = "json" # 读 取 任务 结果 一 般 性 能 要 求 不 高 ， 所 以 使 用 了 可 读 性 


更 好 的 JSON 


22 


23 CELERY TASK RESULT EXPIRES = 60 * 60 * 24 # 任务 过 期 时 间 ， 不 建议 直接 写 86400， 应 


该 让 这 样 的 magic 数字 表述 更 明显 


然后 


端 窗口 ， 分 别 启动 三 个 队列 的 worker， 执 行 以 下 命令 。 


celery -A myCeleryProj.app worker -Q default -1 info 
celery -A myCeleryProj.app worker -Q tasks A -1 info 
celery -A myCeleryProj.app worker -Q tasks B -1 info 


也 可 以 一 次 启动 多 个 队列 。 例 如 : 
celery -A myCeleryProj.app worker -Q tasks A,tasks B -1 info 


则 表示 一 次 启动 两 个 队列 : tasks A fil tasks B. 
最 后 开启 一 个 窗口 来 调用 task。 


>>> from myCeleryProj.tasks import * 

>>> add.delay (4,5) ;taskA.delay() ;taskB.delay () 
<AsyncResult: 21408d7b-750d-4c88-9929-fee36b2f4474» 
<AsyncResult: 737b9502-77b7-47a6-8182-8e91defb46e6> 
<AsyncResult: 69b07d94-be8b-453d-9200-12b37alca5ab» 
>>> 


执行 add.delay(4,5):taskA.delay():taskB.delay() 后 , 可 以 看 到 三 个 窗口 同时 打印 了 相关 信息 ， 


如 图 9.3~ 图 9.5 所 示 。 


图 9.3 default 队列 的 执行 信息 
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myCeleryProj:@x7f39f967cf28 
redis://127.0.0.1:6379/0 
redis://127.0.0.1:6379/0 
2 (prefork) 

: OFF (enable -E to monitor tasks in this worker) 


exchange-(direct) key-A.# 


yProj. task: 
12,218: WARNING/ForkPoolWorker-2] taskA begin... 
12,221: WARNING/ForkPoolWorker-2] 主机 IP 192.168.0.100 
ING/ForkPoolMorker-2] taskA done 
a) A 32-8 001404 


图 9.4 tasks A 队列 的 执行 信息 


exchange-(direct) key-B.# 


[2018-09-01 @ j NFO/MainPr x e 127.0.0.1:6379/8 
[2018-09-01 97:17 IN s] m g For neighbors 
[2018-09-81 07:17:04,695: WRNING Ma Process] /home/aoron/py36env/T1b/python.6/stte-packages/celery/app/cantrol.py:S?: DuplicateNodenavelorming: R 
eceived multiple replies from node name: celery&ubuntu. 
Please make sure you give each node a unique nodename using 
the celery worker ^-n' option 
plural ize(len(dupes), s * . join sorted(dupes)), 
[2018-09-01 07:17:0 INFO/VainPrc " 
[2018-09-0; f 
[2018-09-01 07:22 INFO/ 5] Receive elery k 8[659b87d94-be8b-453d-9299-12b37alca5ob: 
[2018-00-01 07:22:12,228: WARNING/ForkPoolWorker-2] task 
[2018-00-01 07:22:12,231: WARNING/ForkPoolWorker-2] 主机 IP 192 168.0.100 
[2018-09-01 07:22:1 
[2018-09-01 INFO/ForkPoc er-2] Task myCeleryPro: KB [69007 0-12b37aicaSab] succeed 
None 


图 9.5 tasks B 队列 的 执行 信息 
任务 的 路 由 : 前 述 代码 中 决定 任务 具体 在 哪个 队列 运行 〈 任 务 的 路 由 ) 
所 指定 的 。 


CELERY ROUTES = ( 
[ 


("myCeleryProj.tasks.add", {"queue": "default"}), # 将 add 任务 分 配 至 队列 
default 

("myCeleryProj.tasks.taskA", ("queue": "tasks A"}),# 将 taskA 任务 分 配 至 队列 
tasks A 

("myCeleryProj.tasks.taskB", ("queue": "tasks B"}),# 将 taskB 任务 分 配 至 队列 
tasks B 


l, 
) 
实际 生产 环境 可 多 个 任务 需要 路 由 , 是 当然 不 需要 , 批量 分 配 


任务 到 队列 可 以 使 用 如 下 方法 。 


CELERY ROUTES = ( 
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[ 


("myCeleryProj.tasks.*", ("queue": "default"}), # # tasks 模块 中 的 所 有 任务 分 
配 至 队列 default 
1, 
) 


还 可 以 使 用 正则 表达 式 。 


CELERY ROUTES = ( 
[ 
( 
re.compile (r"myCeleryProj\.tasks\. (taskA|taskB)"), 
{"queue": "tasks A", "routing key": "A.import"}, 
), # 将 tasks 模块 中 的 taskA, taskB 分 配 至 队列 tasks A 
( 
"myCeleryProj.tasks.add", 
("queue": "default", "routing key": "task.default"], 
), # 将 tasks 模块 中 的 aaa 任务 分 配 至 队列 default 
l, 


更 改 队列 默认 属性 值 。 


CELERY TASK DEFAULT QUEUE = "default" # 设置 默认 队列 名 为 default 
CELERY TASK DEFAULT EXCHANGE = "tasks" 

CELERY TASK DEFAULT EXCHANGE TYPE = "topic" 

CELERY TASK DEFAULT ROUTING KEY = "task.default" 


9 ° 8 Celery Beat 任务 调度 


前 几 节 的 任务 调度 都 是 手动 触发 的 ， 本 节 将 展示 一 下 使 用 Celery 的 Beat 进程 自动 调度 任 


务 。 
Celery Beat 是 Celery 的 调度 器 ， 其 定期 启动 任务 ， 然 后 由 集群 中 的 可 用 工作 节点 worker 

执行 这 些 任务 。 默 认 情况 下 ，Beat 进程 读 取 配 置 文件 中 CELERYBEAT SCHEDULE 的 设置 ， 
也 可 以 使 用 自 定义 存储 ， 比 如 将 启动 任务 的 规则 存储 在 SQL 数据 库 中 。 请 确保 每 次 只 为 调度 
任务 运行 一 个 调度 程序 ， 否则 任务 将 被 重复 执行 。 使 用 集群 的 方式 意味 着 调度 不 需要 同步 ， 服 
务 可 以 在 不 使 用 锁 的 情况 下 运行 。 

先 明确 一 个 概念 一 一 时 区 。 间 隔 性 任务 调度 默认 使 用 UTC 时 区 ， 也 可 以 通过 时 区 设置 来 
改变 时 区 。 例 如 : 
CELERY TIMEZONE = 'Asia/Shanghai' # 通过 配置 文件 设置 
app.conf.timezone = 'Asia/Shanghai' # 直 接 在 Celery app 的 源 代码 中 设置 

时 区 的 设置 必须 加 入 Celery 的 App 中 ， 默 认 的 调度 器 〈 将 调度 计划 存储 在 
celerybeat-schedule 文件 中 ) 将 自动 检测 时 区 是 否 改变 ， 如 果 时 区 改变 ， 则 自动 重 置 调度 计划 。 
其 他 调度 器 可 能 不 会 自动 重 置 ， 比 如 Django 数据 库 调 度 器 就 需要 手动 重 置 调度 计划 。 
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【示例 9-5】Celery 调度 实例 。 
仍 基于 myCeleryProj 目录 下 的 源 代码 ， 修 改 myCeleryProj/settings.py。 


CELERY TIMEZONE-'Asia/Shanghai' 


CELERYBEAT SCHEDULE = { 
"add": { 


"task": "myCeleryProj.tasks.add", 
"schedule": timedelta (seconds-10) ,# 定 义 间 隔 为 10s 的 任务 


vargs (10; 16); 
) 
"taskA": t 


"task": "myCeleryProj.tasks.taskA", 
"schedule": crontab (hour=21，minute=11) ,# 定 义 间隔 为 对 应 时 区 下 21: 11 分 执行 的 任 


] 
"taskB": { 


"task": "myCeleryProj.tasks.taskB", 
"schedule": crontab (hour=21，minute=8) ,# 定 义 间隔 为 对 应 时 区 下 21: 8 分 执行 的 任务 


}, 


接 下 来 启用 Celery Beat 进程 处 理 调 度 任务 。 


celery -A myCeleryProj.app beat 


最 后 可 以 在 worker 界面 看 到 定时 或 间隔 任务 的 处 理 情况 。 


9 a 9 Celery 


远程 调用 


前 述 的 任务 调度 均 是 在 本 机 调用 任务 , 在 实际 应 用 中 可 能 有 许多 任务 需要 远程 调用 , 如 主 
机 C 上 的 程序 需要 调用 主机 A 和 主机 B 上 的 任务 。 本 节 我 们 仍 基于 myCeleryProj 目录 下 的 源 
代码 来 实现 在 主机 C. 上 远程 调用 主机 A 和 主机 B 上 的 任务 。 


其 中 : 


© 主机 Cip 地 址 为 192.168.0.107; 
© 主机 Aip 地 址 为 192.168.0.111; 
© 主机 Bip 地 址 为 192.168.0.112。 


首先 修改 settings py, 使 他 


EJ taskA 运行 在 队列 tasks A E, A 


E% taskB 运行 在 队列 tasks B 


E, 中 间 人 均 指 向 主机 C 上 的 redis 数据 库 : redis://192.168.0.107:6379/0。 不 一 定 必须 在 主机 C 
上 启用 redis 数据 库 , redis 数据 库 可 以 运行 在 任意 一 台 主 机 上 , 只 要 确保 其 允许 远程 访问 即 可 。 


完整 的 settings.py 如 下 : 


1 from kombu import Queue 


2 
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3 CELERY TIMEZONE='Asia/Shanghai' 

4 

5 CELERY QUEUES = ( # 定义 任务 队列 

6 Queue ("default", routing key="task.#"), # 路 由 键 以 “task.” 开 头 的 消息 都 进 
default 队列 

Ji Queue ("tasks A", routing key-"A.$"), # 路 由 键 以 \R.“ 开 头 的 消息 都 进 tasks A 队列 
8 Queue ("tasks B", routing key="B.#"), # 路 由 键 以 \B.* 开 头 的 消息 都 进 tasks B 队列 
E 

10 

DU 

12 CELERY ROUTES - ( 

13 [ 

14 ("myCeleryProj.tasks.add", ("queue": "default"}), # ¥ add 任务 分 配 至 队列 
default 

15 ("myCeleryProj.tasks.taskA", ("queue": "tasks A"}),# 将 taskR 任务 分 配 至 
队列 tasks A 

16 ("myCeleryProj.tasks.taskB", ("queue": "tasks B"}),# 将 taskB 任务 分 配 至 
队列 tasks B 

17 l, 

Bc) 

19 


20 BROKER URL = "redis://192.168.0.107:6379/0" # 使 用 redis 作为 消息 代理 

21 

22 CELERY RESULT BACKEND = "redis://192.168.0.107:6379/0" # 任务 结果 存在 Redis 
23 

24 CELERY RESULT SERIALIZER = "json" ## 因 为 读 取 任务 结果 一 般 性 能 要 求 不 高 ， 所 以 使 用 了 可 读 
性 更 好 的 JSON 

25 

26 CELERY TASK RESULT EXPIRES = 60 * 60 * 24 # 任务 过 期 时 间 ， 不 建议 直接 写 86400， 应 
该 让 这 样 的 magic 数字 表述 更 明显 


(1) 确保 主机 C 上 的 redis 数据 库 服务 已 经 启动 ， 如 有 以 下 信息 说 明 已 经 成 功 启动 。 


$ps -ef|grep redis 
aaron 2229. 2187 0 21:43 pts/1 00:00:00 ./redis-server 0.0.0.0:6379 
aaron 2452 2437 0 21:47 pts/2 00:00:00 grep --color-auto redis 


(2) 将 myCeleryProj 目录 分 别 复制 到 三 台 主 机 中 。 


scp -r myCeleryProj aaron@192.168.0.111:~ 
scp -r myCeleryProj aaron@192.168.0.112:~ 


G) 在 主机 A 上 启用 worker， 监 控 队 列 tasks A《〈 前 提 是 已 经 完 安装 Python Æ celery 和 
redis) 。 


celery -A myCeleryProj.app worker -Q tasks A -1 info 


在 主机 B 上 执行 同样 的 操作 : 


celery -A myCeleryProj.app worker -Q tasks B -1 info 


(4) 在 主机 C 上 编写 调用 程序 start_tasks.py. 
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import time 

# 异 步 执行 方法 一 

#resultA = taskA.delay() 
#resultB = taskB.delay() 


# 异 步 执行 方法 一 
resultA = taskA.apply async() 
resultB = taskB.apply async (args=[]) 


EN 


12 while not (resultA.ready() and resultB.ready() ) :# 循环 检查 任务 


13 time.sleep (1) 


15 print(resultA.successful()) # 判 断 任务 
16 print(resultB.successful()) # 判 断 任务 


from myCeleryProj.tasks import taskR,taskB 


是 否 成 功 执行 
是 否 成 功 执行 


0 resultC = taskA.apply async(queue-'tasks B') # 将 任务 taskR 路 由 至 队列 tasks B 执 


是 否 执行 完毕 


上 述 代码 第 9 行 可 以 通过 指定 queue='tasks_B' 的 方式 在 调用 任务 时 改变 taskA 执行 的 队列 ， 


这 在 实用 中 是 非常 方便 的 。 
执行 python start tasks.py 得 到 如 下 结果 . 
aaron@ubuntu:~$ python start tasks.py 


True 
True 


主机 A、 主 机 B 上 worker 运行 情况 如 图 9.6 和 图 9.7 Pros. 


图 9-6 tasks A 队列 的 执行 信息 
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1,920: INF 


2002886 


图 9.7 tasks B 队列 的 执行 信息 


可 以 看 到 在 主机 B 上 运行 的 队列 tasks B 中 ，taskA 也 被 执行 。 


监控 与 管理 


本 节 介绍 Celery 的 两 种 监 所 


LH: 命令 行 实用 工具 和 Web 实时 监控 工具 Flower. 


9.10.1 Celery 命令 行 实用 工具 
用 工具 可 以 用 来 检查 和 管理 工作 节点 worker 和 任务 。 我 们 可 以 列 出 所 有 


Celery 命令 行 实 
可 用 的 命令 : 
$ celery help 
或 者 列 出 具体 命令 的 帮助 信息 : 
$ celery «command» --help 
下 面 介绍 几 种 常用 的 命令 及 其 功能 。 


A) shell 环境 命令 。 进 入 含有 Celery 变量 的 Python 解释 器 环境 ，Celery 变量 有 当前 的 
celery 、app、Task， 除 非 设置 了 --without-tasks 标志 。 


$ celery -A myCeleryProj.app shell 

Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 18:11:49) [MSC v.1900 64 bit (AMD64)] 
on win32 

Type "help", "copyright", "credits" or "license" for more information. 
(InteractiveConsole) 

>>> locals().keys() 

dict keys(['app', 'celery', 'Task', 'chord', 'group', 'chain', 'chunks', 'xmap', 
'xstarmap', 'subtask', 'signature', 'add', 'taskB', 'taskA', ' builtins '] 
>>> app 

<Celery myCeleryProjs at 0xlc5fe6a47b8> 
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>>> add 

<@task: myCeleryProj.tasks.add of myCeleryProj at 0xlc5fe6a47b8> 
>>> taskB.delay() 

<AsyncResult: 914698c7-082f-4771-93b6-c6479f89c417> 

>>> 


(2) status 命令 : 在 这 个 集群 中 列 出 激活 的 节点 。 


$ celery -A myCeleryProj.app status 
celery@AARON: OK 


1 node online. 


(3) result 命令 : 显示 任务 的 执行 结果 。 


$ celery -A myCeleryProj.app result -t tasks.add 
4e196aa4-0141-4601-8138-7aa33db0f577 


[e = 只 要 任务 不 使 用 自 定义 结果 后 端 存储 结果 ， 使 用 时 就 可 以 省 略 任务 的 名 称 。 


(4) purge 命令 : 从 所 有 配置 的 任务 队列 清除 任务 消息 。 


$ celery -A myCeleryProj.app purge 


也 可 以 指定 要 清除 的 任务 队列 。 


$ celery -A myCeleryProj.app purge -Q default,tasks A 


或 者 排除 指定 的 任务 队列 。 


$ celery -A myCeleryProj.app purge -X tasks B 


da 这 个 命令 将 从 配置 的 任务 队列 中 清除 所 有 的 消息 。 此 项 操作 不 可 撤销 ,消息 将 被 永久 清除 。 


(5) inspect active MA: 列 出 激活 的 任务 。 


$ celery -A myCeleryProj.app inspect active 


(6) inspect scheduled MA: 列 出 计划 任务 。 


$ celery -A myCeleryProj.app inspect scheduled 


(7) inspect registered 命令 : 列 出 已 注册 的 任务 。 


$ celery -A myCeleryProj.app inspect registered 
-> celery@AARON: OK 

* myCeleryProj.tasks.add 

* myCeleryProj.tasks.taskA 
* myCeleryProj.tasks.taskB 


(8) inspectstats 命令 : 列 出 worker 的 统计 信息 。 


$ celery -A myCeleryProj.app inspect stats 
-> celery@AARON: OK 


216 


BIB HANES Celery 


"broker": { 
"alternates": [], 
"connect timeout": 4, 
"failover strategy": "round-robin", 
"heartbeat": 120.0, 
"hostname": "127.0.0.1", 
"insist": false, 
"login method": null, 
"ports 6379, 
"ssi" falje; 
"transport": "redis", 
"transport options": {}, 
"uri prefix": null, 
"userid": null, 
"virtual host": "0" 

b 

Tloce ss "7905n; 

"pid": 7336, 

Spool bre st 
"free-threads": 4, 
"max-concurrency": 4, 
"running-threads": 0 


), 

"prefetch count": 16, 

"rusage": "N/A", 

MEESAL: | 
"myCeleryProj.tasks.add": 6, 
"myCeleryProj.tasks.taskA": 5, 
"myCeleryProj.tasks.taskB": 18 


(9) inspect query task 命令 : 通过 id 获取 任务 的 信息 。 


$ celery -A myCeleryProj.app inspect query task 
898e9c89-d2ac-4a9c-aedc-2ff505ccab37 

也 可 以 一 次 查询 多 个 任务 

$ celery -A myCeleryProj.app inspect query task idl id2 ... idN 


(10) control enable events/disable events: 启用 /不 启用 事件 。 


$ celery -A myCeleryProj.app control enable events/disable events 


(1) migrate: 命 令 : 将 任务 由 一 个 中 间 人 转移 至 另 一 个 中 间 人 。 


$ celery -A myCeleryProj.app migrate redis://localhost amqp://localhost 


这 个 命令 将 把 一 个 中 间 人 上 的 所 有 任务 迁移 到 另 一 个 中 间 人 上 。 由 于 这 个 命令 是 实验 性 


的 ， 因 此 在 执行 命令 之 前 要 确保 对 重要 数据 进行 备份 。 


AT 
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Eg = inspect 和 control 命令 默认 对 所 有 的 worker 生效 , 可 单独 指定 一 个 worker 或 一 个 worker 


的 列表 。 命 令 如 下 : 


$ celery -A proj inspect -d wl@e.com,w2@e.com reserved 
$ celery -A proj control -d wl@e.com,w2@e.com enable events 


9.10.2 Web 实时 监控 工具 Flower 


Flower 是 一 个 基于 实时 Web 服务 的 Celery 监控 和 管理 工具 ， 其 后 续 版 本 正在 积极 开发 
中 ， 但 对 于 Celery 监控 来 说 已 经 是 一 个 必 不 可 少 的 工具 。 作 为 Celery 推荐 的 监视 器 ， 它 淘汰 
了 Django-Admin 监视 器 、celerymon 监视 器 和 基于 ncurses 的 监视 器 。 

Flower 具有 以 下 特色 。 
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使 用 Celery 事件 来 实时 监控 : 

> 查看 任务 的 进度 和 历史 信息 ; 

> 查看 任务 的 详情 ( 参数 、 开 始 时 间 、 运 行 时 间 等 ) 
» 提供 图 表 和 统计 信息 。 

远程 控制 : 

> 提供 图 表 和 统计 信息 ; 

> 关闭 和 重启 worker 实例 ; 

> 控制 worker 的 缓冲 池 大 小 和 自动 优化 设置 ; 
> 查看 并 修改 一 个 worker 实例 所 指向 的 任务 队列 ; 
> 查看 目前 正在 运行 的 任务 ; 

> 查看 定时 或 间隔 性 调度 的 任务 ; 

> 查看 已 保留 和 已 撤销 的 任务 ; 

> 时 间 和 速度 限制 ; 

> 配置 监视 器 ; 

> 撤销 或 终止 任务 。 

提供 HTTP 接口 : 

> 列 出 worker; 

> 关闭 一 个 worker; 

> 重启 worker 的 缓冲 池 ; 

> 增加 /减少 /自动 定量 worker 的 缓冲 池 ; 

> 从 任务 队列 消费 (取出 任务 执行 ) ; 

> 停止 从 任务 队列 消费 ; 

> 列 出 任务 列表 /任务 类 型 ; 

> 获取 任务 信息 ; 

> 执行 一 个 任务 ; 
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> 按 名 称 执行 任务 ; 
> 获得 任务 结果 ; 
> 改变 工作 的 软 硬 时 间 限制 ; 
> 更 改 任务 的 速率 限制 ; 
> 撤销 一 个 任务 。 
@ OpenID 身份 验证 。 


9.10.3 Flower 的 使 用 方法 
(1) 安装 Flower， 可 以 使 用 pip 安装 。 


pip install flower 


(2) 启动 Flower. 


$ celery -A myCeleryProj.app flower 
[I 180907 22:34:43 command:139] Visit me at http://localhost:5555 
[I 180907 22:34:43 command:144] Broker: redis://127.0.0.1:6379/0 
[I 180907 22:34:43 command:147] Registered tasks: 

['celery.accumulate', 

'celery.backend cleanup', 

'celery.chain', 

'celery.chord', 

'celery.chord unlock', 

'celery.chunks', 

'celery.group', 

'celery.map', 

'celery.starmap', 

'myCeleryProj.tasks.add', 

'myCeleryProj.tasks.taskA', 

'myCeleryProj.tasks.taskB'] 
[I 180907 22:34:43 mixins:224] Connected to redis://127.0.0.1:6379/0 


从 输出 信息 可 以 看 出 ， 默 认 的 端口 为 http://localhost:5555。 也 可 以 手动 指定 端口 ,命令 如 
T: 
$ celery -A myCeleryProj.app flower --port-5555 
中 间 人 的 url 也 可 以 通过 参数 --broker 来 指定 。 
$ celery -A myCeleryProj.app flower --port-5555 --broker-redis://127.0.0.1:6379/0 
打开 浏览 器 http//localhost:5555 可 以 看 到 Flower 的 Web 页 面 ， 如 图 9.8 所 示 。 在 


Flower-Dashboard 页 面 中 可 以 看 到 worker 节点 的 状态 、 激 活 的 任务 个 数 、 已 处 理 的 任务 数 、 
失败 的 任务 数 、 成 功 的 任务 数 、 重 试 的 任务 数 ， 并 且 还 可 以 检索 。 
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Worker Name 


celery @AARON, 


Showing to 1 of 1 entries 


图 9.8 Flower-Dashboard 页 面 


如 图 9.9 所 示 的 Flower-Tasks 页 面 , 可 以 看 到 每 一 个 任务 更 加 详细 的 信息 ,包含 任务 的 ID、 
状态 、 参 数 、 返 回 值 、 开 始 时 间 、 结 束 时 间 等 。 


myCalaryProj inska task TI0Sieca-e5 -Asm 86dncilotss49s7. SE O 


40664973 2222 4075- abgb 
yCelaryProjtasks tashA eee oe 


21e3202c 8457 4caT babg 
yColayProjtacks.add bee es rat 


Š Sce7600¢-5682-402b- We- 
myCelaryProl ass tank ECT 


myCeleryProj ass tashA Blcad7d0 -add-4e58.a0ls- 53da6e38 EIR 


126203 6492-4140-boa8- 


图 9.9 


2018-05-07 2245/09 200 


2018-08-07 22 45.09 037 


2018-08-07 2245.08 965 


2018-09-07 224508 974 


2018-09-07 22 4506 374 


Flower-Tasks 页 面 


如 图 9.10 所 示 的 Broker 页 面 ， 可 以 看 到 任务 队列 的 信息 。 


Broker redis://127.0.0.1:6379/0 


图 9.10 Flower-Broker 页 面 
如 图 9.11 所 示 的 Monitor 页 面 ， 可 以 看 到 任务 执行 的 实时 情况 ， 满 足 监控 的 需求 。 
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Stored ` 


20180927 22 46:1 969 


2018-0857 22 45 08.376. 


2018.09 07 2246 08 037 


2018-09-07 22 45 08.977 


2018-0927 22 45 08.962 


Runtime 


3016 


5016 


3000 


3000 


3000 


{ale since 


NA 


NA 


NA 


Worker 


celery AARON 


oohry@AARON 


colery@AARON 


calery@AARON 


cry AARON 
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Succeeded tasks Failed tasks 
¥ Micolery@AaRon V EN 
Task times. Queued tasks 


图 9.11 Flower-Monitor 页 面 


Flower 还 有 更 多 的 功能 ， 包 括 用 户 授权 功能 ， 更 多 详细 信息 可 访问 Flower 的 官方 文档 
(https://flower.readthedocs.io/en/latest/) 。 
本 节 的 实例 以 Redis 作为 中 间 人 ， 也 可 以 使 用 redis cli 命令 从 Redis 数据 库 中 查看 相关 的 
任务 信息 。 
使 用 redis-cli 命令 列 出 消息 队列 中 任务 的 个 数 。 


$ redis-cli -h HOST -p PORT -n DATABASE NUMBER llen QUEUE NAME 


结果 会 显示 一 个 整数 ， 表 示 当 前 队列 中 等 待 执行 的 任务 个 数 。 
如 果 使 用 Redis 作为 结果 后 端 保存 任务 的 运行 结果 , 则 下 面 命令 可 以 查看 所 有 相关 的 键 信 
息 。 


$ redis-cli -h HOST -p PORT -n DATABASE NUMBER keys \* 
$ redis-cli.exe -n 0 keys \* 
celery-task-meta-d066d973-2aa2-4e75-ab9b-acdle749aa95 
celery-task-meta-5ce7680d-5682-402b-8fe3-bb18a306338a 
kombu.binding.web tasks 

kombu.binding.celeryev 
celery-task-meta-cd653dd4-17c0-4b8f-a20d-646636b13fd7 
celery-task-meta-cf5cbf03-0f4f-4943-8a8f-85a08b6falle 
celery-task-meta-00cda690-1b53-4abd-bbl5-eb2cdeb4088a 
celery-task-meta-b2balb4d-5514-4e28-b8fb-83a95a4e0b99 
celery-task-meta-84501710-a8e4-43b6-8fcb-e990b6a3all5 
celery-task-meta-51927834-733f-4b72-9501-1cb118835dadf 
celery-task-meta-7305fcca-e598-4f6a-85da-cf0ef544947e 
celery-task-meta-333574c3-ee3f-4f27-a10f-aa08354e65db 
celery-task-meta-898e9c89-d2ac-4a9c-aedc-2ff505ccab37 
celery-task-meta-d409c598-cd3f-403a-alc6-11b2b18d688f 
celery-task-meta-5ff02f2f-9e7d-4269-add3-17b970a2b066 
celery-task-meta-16203b22-ad2f-43e9-84c8-989afffa2628 
celery-task-meta-b78b8412-4d37-4b4c-b130-17e0f7ecdc96 
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mykey 
celery-task-meta-8cbc5121-76e4-4650-a4d1-0b8642dc38b1 
celery-task-meta-14411f64-e7c5-4cab-baa3-2d14b2255b54 
celery-task-meta-0ebf0a66-68cb-46f3-bb96-bf94e7653f1d 
celery-task-meta-914698c7-082f-4771-93b6-c6479f89c417 
celery-task-meta-c197d8a0-c94f-4b41-balf-60de0b4f5909 
celery-task-meta-7d1025f5-60ad-4a2a-ac80-b947ecd3c2cd 
celery-task-meta-1335c819-4186-442b-8f21-1a02eb646fd1 
celery-task-meta-21e3202c-8d57-4ca7-bab9-b285d992176f 


我 们 使 用 具体 的 键 来 获取 任务 的 详细 信息 。 


$ redis-cli.exe -n 0 get celery-task-meta-a5fb77c9-0175-4c5c-84e2-7380398ec045 
("status": "SUCCESS", "result": null, "traceback": null, "children": [], "task id": 
"a5fb77c9-0175-4c5c-84e2-7380398ec045") 
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第 10 章 
任务 调度 神器 Airflow 


Airflow 是 Apache FEES H , Jti Python 编写 的 一 款 非常 优雅 的 开源 调度 平台 。Airflow 
使 用 DAG (有 向 无 环 图 ) 来 定义 工作 流 ， 配 置 作业 依赖 关系 非常 方便 ， 豪 不 夸张 地 说 : EF 
源 的 调度 工具 中 ，Airflow 是 首屈一指 。 


Airflow 简介 


Airflow 具备 以 下 天 然 优 势 。 


灵活 易 用 。Airflow 本 身 是 Python 编写 的 ， 且 工作 流 的 定义 也 是 Python 编写 ， 有 了 
Python 胶水 的 特性 ， 没 有 什么 任务 是 调度 不 了 的 ， 有 了 开源 的 代码 ， 没 有 什么 问题 
是 无 法 解决 的 ， 我 们 可 以 修改 源 代码 来 满足 个 性 化 的 需求 ， 而 且 代 码 都 是 
--human-readable。 
功能 强大 。 自 带 的 Operators 都 有 15+， 也 就 是 说 本 身 已 经 支持 15+ 不 同类 型 的 作业 ， 
而 且 还 可 以 自 定义 Operators， 如 shell gk. Python. MySQL. Oracle. Hive 4. 无 
论 是 传统 数据 库 平台 还 是 大 数据 平台 , 统统 不 在 话 下 ， 若 对 官方 提供 的 不 满足 ， 则 完 
全 可 以 自己 编写 Operators。 
优雅 。 作 业 的 定义 简单 明了 ， 基 于 Jinja 模板 引擎 很 容易 做 到 脚本 命令 参数 化 ，Web 
页 面 更 是 非常 --human-readable。 
极 易 扩展 。 提 供 各 种 基 类 供 扩展 ， 以 及 多 种 执行 器 供 选 择 ， 其 中 CeleryExcutor 使 用 
了 消息 队列 来 编排 多 个 工作 节点 (worker) ， 可 分 布 式 部 署 多 个 worker, Airflow 可 
以 做 到 无 限 扩 展 。 

富 的 命令 工具 。 可 以 直接 在 终端 喜 命令 完成 测试 、 部 署 、 运 行 、 清 理 、 重 跑 、 追 数 
等 任务 ， 稍 微 熟悉 Python 的 开发 人 员 部 署 一 个 复杂 的 作业 流 是 非常 高 效 的 。 


Airflow 是 免费 的 , 我 们 可 以 将 一 些 常 做 的 巡 检 任务 、 定 时 脚本 (如 crontab) 、ETL 处 理 、 
监控 等 任务 放 在 Airflow 上 集中 管理 ， 甚 至 都 不 用 再 写 监控 脚本 ,作业 出 错 会 自动 发 送 日 志 信 
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息 到 指定 人 员 邮 箱 ， 低 成 本 高 效率 地 解决 生产 问题 。 在 学 习 Airflow 之 前 我 们 先 来 看 一 下 
Airflow 有 哪些 组 成 部 分 。 
从 一 个 使 用 者 的 角度 来 看 ， 调 度 工作 都 有 以 下 功能 。 


© 系统 配置 (SAIRFLOW_HOME/airflow.cfg) . 

€ ”作业 管理 (SAIRFLOW HOME/dags/xxxx.py ) . 

€ 运行 监控 (webserver). 

e 报警 (邮件 ) 。 

€ H&A (webserver %$AIRFLOW_HOME/logs/*** ) 。 
© 跑 批 耗 时 分 析 (webserver) . 

e 后 台 调 度 服务 (scheduler) . 


在 Airflow 的 Web 服务 器 上 可 以 直接 配置 数据 库 连 接 来 写 SQL 查询 ， 做 更 加 灵活 的 统计 
分 析 。 除 了 以 上 组 成 部 分 ， 我 们 还 需要 知道 以 下 要 介绍 的 概念 。 


10.1.1 DAG 


Linux 的 crontab 和 Windows 的 “任务 计划 ”都 可 以 配置 定时 任务 或 间隔 任务 ， 但 不 能 配 
置 作业 之 前 的 依赖 关系 。Airflow 中 DAG 就 是 管理 作业 依赖 关系 的 。DAG (Directed Acyclic 
Graphs) 翻译 为 有 向 无 环 图 ， 如 图 10.1 所 示 就 是 一 个 简单 的 DAG. 


DS_PICP_BATCHREQUEST_PHY 
DS BEGIN [| DS_PICP_BATCHRESULTOKLIST_PHY 
DS PICP. SINGLECHECK PHY 


图 10.1 简单 的 DAG 图 形 展示 


在 Airflow 中 ， 这 种 DAG 是 通过 编写 Python 代码 来 实现 的 ，DAG 的 编写 非常 简单 ， 官 
方 提供 了 很 多 例子 ， 在 安装 完成 后 ， 启 动 webserver 即 可 看 到 DAG 样 例 的 源 代码 (其 实 是 定 
MY DAG 对 象 的 Python 程序 ) ， 稍 做 修改 即 可 成 为 自己 的 DAG。 图 10.1 中 DAG 的 依赖 关 
系 通过 图 10.2 所 示 的 三 行 代码 即 可 完成 ， 非 常 简洁 明了 。 


图 10.2 定义 DAG 中 任务 的 依赖 关系 


10.1.2 操作 符 一 一 Operators 


DAG 定义 一 个 作业 流 ，Operators 则 定义 了 实际 需要 执行 的 作业 。Airflow 提供 了 许多 
Operators 来 指定 需要 执行 的 作业 。 
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BashOperator: 执行 bash 命令 或 脚本 。 

SSHOperator: 执行 远程 bash 命令 或 脚本 ( 原理 同 paramiko 模块 ) 。 
PythonOperator: 执行 Python 函数 。 

EmailOperator: 发 送 Email。 

HTTPOperator: 发 送 一 个 HITP 请 求 。 

MySqlOperator. SgliteOperator. PostgresOperator. MsSqlOperator. OracleOperator. 
JdbcOperator 等 : 执行 SQL 任务 。 


还 有 DockerOperator、HiveOperator、S3FileTransferOperator、PrestoToMysqlOperator 、 
SlackOperator 等 。 除 这 些 外 ， 还 可 以 自 定义 Operators 满足 个 性 化 的 任务 需求 。 


10.1.3 ”时 区 一 一 timezone 


Airflow 默认 使 用 UTC 时 区 , 日 期 时 间 信 息 以 UTC 格式 存储 在 数据 库 中 。Airflow 允许 我 
们 运行 依赖 时 区 的 DAG 任务 。 目 前， 在 用 户 接 口上 ，Airflow 并 不 将 UTC 时 区 转换 为 用 户 所 
在 的 时 区 。 默 认 情 况 下 ，Airflow 总 是 显示 UTC 时 区 的 时 间 。 此 外 ， 操 作 符 Operators 中 使 用 
的 模板 时 区 也 不 会 自动 转换 。 时 区 信息 是 公开 的 ， 如 何 利 用 时 区 取决 于 DAG 的 作者 。 

如 果 任务 分 布 在 多 个 时 区 , 并 且 和 希望 根据 每 个 任务 所 在 的 时 区 进行 调度 , 那么 这 将 非常 方 
便 。 即 使 只 在 一 个 时 区 运行 Airflow, 在 数据 库 中 以 UTC 存储 仍然 是 一 个 很 好 的 实践 ， 一 个 主 
要 原因 是 夏令 时 (DST) 。 许 多 国家 都 有 DST 系统 ， 一 般 在 天 亮 比 较 早 的 夏季 人 为 将 时 间 调 
快 一 小 时 ， 如 果 使 用 本 地 时 间 工 作 ， 那 么 在 发 生 转换 时 ,每 年 可 能 会 遇 到 两 次 错误 。 对 于 简单 
的 DAG 来 说 ， 这 可 能 并 不 重要 ， 但 是 对 于 金融 服务 行业 这 就 是 一 个 问题 。 

时 区 设置 在 airflow.cfg 中 。 默 认 情况 下 ， 它 被 设置 为 UTC， 但 是 可 以 将 其 更 改 为 任意 时 
区 。 例 如 查询 我 们 使 用 的 时 区 : 


>>> import pytz 
>>> pytz.country timezones('cn') 
['Asia/Shanghai', 'Asia/Urumqi'] 


可 以 在 airflow.cfg 中 修改 时 区 : default timezone = 'Asia/Shanghai' 


Airflow 1.9 之 前 的 版 本 使 用 本 地 时 区 来 定义 任务 开始 日 期 , scheduler interval 中 crontab 表 
达 式 的 定时 也 是 依据 本 地 时 区 为 准 ,但 Airflow L9 及 后 续 版 本 将 默认 使 用 UTC HR RA 
保 Airflow 调度 的 独立 性 ， 以 避免 不 同 机 器 使 用 不 同时 区 导致 运行 错乱 。 如 果 调 度 的 任务 
集中 在 一 个 时 区 上 或 不 同 机 器 ， 但 使 用 同一 时 区 时 ， 需 要 对 任务 的 开始 时 间 及 cron 表达 
式 进行 时 区 转换 ,或 者 直接 使 用 本 地 时 区 。 目 前 Airflow1.9 的 稳定 版 本 还 不 支持 时 区 配置 ， 
后 续 版 本 会 加 入 时 区 配置 ， 以 满足 使 用 本 地 时 区 的 需求 。 


10.1.4 Web 服务 器 一 一 webserver 
webserver 是 Airflow 的 页 面 展 示 ， 可 显示 DAG 视图 、 控 制作 业 的 启 停 、 清 除 作 业 状 态 寻 


juu 
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跑 、 数 据 统计 、 查 看 日 志 、 管 理 用 户 及 数据 连接 等 。 不 运行 webserver 并 不 影响 Airflow 作业 
的 调度 。 


10.1.5 ”调度 器 一 一 schduler 


调度 器 schduler 负责 读 取 DAG 文件 ， 计 算 其 调度 时 间 。 当 满足 触发 条 件 时 ， 则 开启 一 个 
执行 器 的 实例 来 运行 相应 的 作业 ， 必 须 持续 运行 ， 不 运行 则 作业 不 会 跑 批 。 


10.1.6 工作 节点 一 一 worker 
当 执 行 器 为 CeleryExecutor 时 ， 需 要 开启 一 个 worker。 


10.1.7 ”执行 器 一 一 Executor 


执行 器 有 SequentialExecutor、LocalExecutor 和 CeleryExecutor。 


€  SequentialExecutor 为 顺序 执行 器 ， 默认 使 用 SQLite 作为 知识 库 。 由 于 SQLite 数据 库 
的 原因 ， 因 此 任务 之 间 不 支持 并 发 执行 ， 常 用 于 测试 环境 ， 无 须 额外 配置 。 

€  LocalExecutor 为 本 执行 器 ， 不 能 使 用 SQLite 作为 知识 库 ， 可 以 使 用 mysql. 
PostgreSQL. DB2. Oracle 等 各 种 主流 数据 库 ， 任 务 之 间 支 持 并 发 执行 ， 常 用 于 生产 
环境 ， 需 要 配置 数据 库 连 接 URL. 

€  CeleryExecutor 为 Celery 执行 器 ， 需 要 安装 Celery。Celery 是 基于 消息 队列 的 分 布 式 
异步 任务 调度 工具 , 需要 额外 启动 工作 节点 worker. 使 用 CeleryExecutor 可 将 作业 运 
行 在 远程 节点 上 。 


10.2 Airflow 安装 与 部 署 


截止 目前 ，Apache Airflow 的 最 新 稳定 版 本 为 1.10.0 ， 我 们 以 Ubuntu 16.04 为 例 ， 其 他 
Linux 操作 系统 可 类 比 参考 。 
由 于 下 载 的 软件 包 比 较 多 ， 如 果 使 用 默认 的 pip 源 ， 则 下 载 速度 较 慢 ， 为 提高 下 载 速度 ， 
我 们 使 用 国内 的 源 。 

首先 修改 pip 源 ， 提 高 下 载 速度 。 如 果 已 经 修改 为 国内 源 ， 则 无 须 再 次 修改 。 修 改 文件 
~/pip/pip.conf， 如 果 没 有 就 新 建 一 个 。 填 写 以 下 内 容 : 
[global] 
index-url = https://pypi.tuna.tsinghua.edu.cn/simple 


安装 前 检查 Python 环境 下 导入 ssl、SQLite3， 如 果 不 报错 ， 如 下 : 


>>> import ssl,sqlite3 
DF 
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如 果 是 自己 手动 编译 安装 的 Python， 则 可 能 会 导致 ssl 模块 报错 ; 如 果 报错 ， 则 按 以 下 方 
法 安装 相应 的 软件 包 ， 并 重新 编译 安装 Python 即 可 。 安 装 完成 后 再 次 检查 导入 ， 确 保 导 入 ssl 
及 SQLite3 不 报错 。 


$sudo apt-get install libssl-dev 
$sudo apt-get install libssl-dev 
$./configure --prefix-yourpath && make test && make && make install 


10.2.1 在线 安装 
联网 环境 下 ， 安 装 软 件 变 更 非常 简单 ， 无 须 考虑 依赖 包 ，pip 会 自动 为 你 解决 。 执 行 下 面 
的 命令 安装 最 新 稳定 版 的 Airflow。 
pip install apache-airflow 
也 可 以 安装 额外 功能 ， 如 Hive、PostgreSQL 等 。 
pip install apache-airflow[postgres,hive] 
岂可 以 安装 所 有 已 知 功能 。 
pip install apache-airflow[all] 


这 里 我 们 选择 安装 所 有 已 知 功能 , 这 样 后 续 如 需要 使 用 新 功能 就 无 须 单独 下 载 安装 , 毕竟 
Python 的 库 都 很 小 ， 不 会 占用 太 多 磁盘 空间 ， 因 此 推荐 全 部 安装 。 


| 默认 情况 下 ，Apache Airflow 的 一 个 依赖 项 引入 了 GPL (unidecode) 。 如 果 出 现 这 种 
情况 ， 则 可 以 通过 执行 export SLUGIFY_USES_TEXT_UNIDECODE=yes 来 强制 使 用 非 
GPL 库 ， 然 后 继续 正常 安装 。 请 注意 ， 这 需要 在 每 次 升级 时 指定 。 


如 果 安 装 过 程 中 出 现 以 下 错误 : 


RuntimeError: By default one of Airflow's dependencies installs a GPL dependency 
(unidecode). To avoid this dependency set SLUGIFY USES TEXT UNIDECODE=yes in your 
environment when you install or upgrade Airflow. To force installing the GPL version 
set AIRFLOW GPL UNIDECODE 


可 在 终端 执行 
export SLUGIFY USES TEXT UNIDECODE-yes 
来 设置 环境 变量 的 值 ， 即 可 继续 安装 。 
安装 过 程 中 可 能 会 出 现下 列 错误 ， 请 按 对 应 的 方法 解决 即 可 。 
(1) OSError: mysql config not found 的 错误 。 


Traceback (most recent call last): 
File "<string>", line 1, in <module> 
File "/tmp/pip-install-2meuvf5n/mysqlclient/setup.py", line 18, in «module» 
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metadata, options = get config() 
File "/tmp/pip-install-2meuvf5n/mysqlclient/setup posix.py", line 53, in 
get config 
libs = mysql config("libs r") 
File "/tmp/pip-install-2meuvf5n/mysqlclient/setup posix.py", line 28, in 
mysql config 
raise EnvironmentError("$s not found" $ (mysql config.path,)) 
OSError: mysql config not found 


意思 是 MySQL 的 配置 文件 没有 找到 ， 安 装 libmysglclient-dev 即 可 。 


sudo apt install libmysqlclient-dev 


(2) pymssql 安装 错误 。 


Traceback (most recent call last): 
File "<string>", line 1, in <module> 
File "/tmp/pip-download-qa2zmm8z/pymssql/setup.py", line 477, in «module» 
ext modules - ext modules(), 
File 
"/home/aaron/projectA env/lib/python3.6/site-packages/setuptools/ init  .py", 
line 128, in setup 
install setup requires (attrs) 
File 
"/home/aaron/projectA env/lib/python3.6/site-packages/setuptools/ init  .py", 
line 123, in install setup requires 
dist.fetch build eggs (dist.setup requires) 
return cmd.easy install (req) 
File 
"/home/aaron/projectA env/lib/python3.6/site-packages/setuptools/command/easy 
install.py", line 667, in easy install 
raise DistutilsError (msg) 
distutils.errors.DistutilsError: Could not find suitable distribution for 
Requirement.parse('setuptools git') 
setup.py: platform.system() => 'Linux' 
setup.py: platform.architecture() -» ('64bit', 'ELF') 
setup.py: platform.linux distribution() => ('debian', 'stretch/sid', '') 
setup.py: platform.libc ver() => ('glibc', '2.9') 
setup.py: Using bundled FreeTDS in 
/tmp/pip-download-qa2zmm8z/pymssql/freetds/nix 64 
setup.py: include dirs = 
['/tmp/pip-download-qa2zmm8z/pymssql/freetds/nix 64/include', 
'/usr/local/include'] 
setup.py: library dirs = 
['/tmp/pip-download-qa2zmm8z/pymssql/freetds/nix 64/lib', '/usr/local/lib'] 


解决 方法 : 设置 环境 变量 ， 手 动 安装 pymssql。 


pip install setuptools git 
pip download pymssql 
tar -zxvf pymssql-2.1.3.tar.gz 
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cd pymssql-2.1.3 
export PYMSSQL BUILD WITH BUNDLED FREETDS=1 
python setup.py install 
以 上 步骤 可 确保 pymssql 成 功 安装 , 再 执行 pip install apache-airflow[all] 即 可 完成 剩余 部 分 
的 安装 。 


如 果 仍 有 无 法 解决 的 错误 ， 如 缺少 C 语言 的 头 文件 ， 这 种 比较 难以 解决 ， 可 以 在 搜索 引 
擎 上 寻找 帮助 。 如 果 最 终 仍 无 法 解决 ， 推 荐 使 用 : 


pip install apache-airflow 


进行 安装 ， 后 续 若 需要 使 用 其 他 功能 ， 则 单独 安装 相应 的 包 即 可 ， 这 样 既 省 时 又 省 力 。 


目前 ， 任 务 都 在 生产 环境 运行 ， 如 果 想 在 生产 环境 安装 Airflow， 则 需要 先 在 外 网 下 载 
Airflow 的 安装 包 和 依赖 包 ， 再 传输 至 生产 环境 进行 安装 部 署 ， 这 就 是 离线 安装 。 


10.2.2 ”离线 安装 


先 在 联网 环境 下 载 安 装 包 ， 联 网 的 计算 机 操作 系统 和 Python 版 本 最 好 与 生产 环境 一 致 ， 
如 果 不 一 致 ， 则 需要 为 pip 指定 操作 系统 和 Python 版 本 。 
$ mkdir airflow 


$ cd airflow 
$ pip download apache-airflow[all] 


请 等 待 下 载 完成 ， 然 后 将 上 述 文件 打包 传输 至 生产 环境 解压 ， 进 入 airflow 目录 ， 执 行 : 


$cd airflow 
$ pip install apache-airflow[all] --no-index -f ./ 


以 上 过 程 如 有 报错 ， 请 参考 在 线 安装 时 的 错误 解决 方法 。 


10.2.3 ”部 署 与 配置 (以 SQLite 为 知识 库 ) 


(1) 设置 SAIRFLOW_HOME 的 环境 变量 并 初始 化 数据 库 。 


echo "export AIRFLOW HOME--/airflow" >> ~/.bashrc## 此 步 可 省 略 ， 默 认 的 路 径 就 是 ~/airflow 
source ~/.bashrc 
airflow initdb 


这 一 步 会 创建 Airflow 的 知识 库 。 运 行 结果 如 下 : 


(py36env) aaron@ubuntu:~$ airflow initdb 

[2018-09-12 21:03:10,335] { init .py:51) INFO - Using executor 
SequentialExecutor 

DB: sqlite:////home/aaron/airflow/airflow.db 

[2018-09-12 21:03:12,391] {db.py:338} INFO - Creating tables 

INFO [alembic.runtime.migration] Context impl SQLiteImpl. 

INFO [alembic.runtime.migration] Will assume non-transactional DDL. 
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INFO 
INFO 
create 


is encrypted 


alembic.runtime.migration] Running upgrade 
alembic.runtime.migration] Running upgrade e3a246e0dcl -> 1507a7289a2f, 


-> e3a246e0dcl, current schema 


/home/aaron/py36env/lib/python3.6/site-packages/alembic/util/messaging.py:69: 
UserWarning: Skipping unsupported ALTER for creation of implicit constraint 
warnings.warn (msg) 


INFO 
mainta 
INFO 
More 1 
INFO 


alembic.runtime.migration] 
ogging into task isntance 
alembic.runtime.migration] 


job id indices 


INFO 


alembic.runtime.migration] 


Adding extra to Log 


INFO [alembic.runtime.migration] 
add dagrun 
INFO [alembic.runtime.migration] 


task duration 


INFO 
dagrun 
INFO 
add pa 
INFO 
dagrun 
INFO 
notifi 
INFO 
Add a 
INFO 
add is 
INFO 
rename 
INFO 
add TI 
INFO 
add ta 
INFO 
add da 
INFO 


alembic.runtime.migration] 
config 
alembic.runtime.migration] 
ssword column to user 
alembic.runtime.migration] 
start end 
alembic.runtime.migration] 


alembic.runtime.migration] 


alembic.runtime.migration] 
user table 
alembic.runtime.migration] 
state index 
alembic.runtime.migration] 
Sk fails journal table 
alembic.runtime.migration] 
g stats table 
alembic.runtime.migration] 


Running 
Running 
Running 
Running 
Running 
Running 
Running 


Running 


upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 


upgrade 


alembic.runtime.migration] Running upgrade 1507a7289a2f -> 13eb55f81627, 
in history for compatibility with earlier migrations 


13eb55f81627 -» 338e90f54d61, 
338e90f54d61 -» 52d714495f0, 
52d714495f0 -» 502898887f84, 
502898887f84 -> 1b38cef5b76e, 
1b38cef5b76e -» 2e541aldcfed, 
2e541aldcfed -> 40e67319e3a9, 
40e67319e3a9 -» 561833clc74b, 


561833clc74b -> 4446608588, 


Running upgrade 4446e08588 -> bbc73705a13e, Add 


cation sent column to sla miss 
alembic.runtime.migration] Running upgrade 
column to track the encryption state of the 'Extra' field in connection 


Running 


encrypted column to variable table 


Running 
Running 
Running 
Running 


Running 


Add fractional seconds to mysql tables 


INFO 
xcom d. 
INFO 
add pi 
INFO 


alembic.runtime.migration] 
ag task indices 
alembic.runtime.migration] 
d field to TaskInstance 
alembic.runtime.migration] 


Running 
Running 


Running 


Add dag id/state index on dag run table 


INFO 


alembic.runtime.migration] 


Running 


add max tries column to task instance 


INFO 
Make x 
INFO 
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alembic.runtime.migration] 


alembic.runtime.migration] 


Running 


com value column a large binary 


Running 


upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 


upgrade 


bbc73705al3e -> bba5a7cfc896, 
bba5a7cfc896 -» 1968acfc09e3, 
1968acfc09e3 -» 2e82aab8ef20, 
2e82aab8ef20 -> 211e584da130, 
211e584da130 -> 64de9cddf6c9, 
64de9cddf6c9 -> f2cal0b85618, 
f2cal0b85618 -» 4addfal236f1, 
4addfal236f1 -> 8504051e801b, 
8504051e801b -> 5e7d17757c7a, 
5e7d17757c7a -> 127d2bf2dfa7, 
127d2bf2dfa7 -» ccle65623dc7, 
ccle65623dc7 -> bdaa763e6c56, 


bdaa763e6c56 -» 947454bfldff, 


add 
INFO 


ti job id index 


alembic.runtime.migration] Running upgrade 947454bfldff -> d2ae31099d61 


Increase text size for MySQL (not relevant for other DBs' text types) 


INFO [alembic.runtime.migration] Running 


Add 


time zone awareness 


INFO [alembic.runtime.migration] Running 


kubernetes resource checkpointing 


INFO [alembic.runtime.migration] Running 


kubernetes resource checkpointing 


INFO [alembic.runtime.migration] Running 


add 


kubernetes scheduler uniqueness 


INFO [alembic.runtime.migration] Running 


05f3 


0312d566, merge heads 


INFO [alembic.runtime.migration] Running 


fix 


mysql not null constraint 


INFO [alembic.runtime.migration] Running 


fix 

INFO 
inde: 
Done 


目录 


KE 


defa 


sqlite foreign key 
alembic.runtime.migration] Running 
x-faskfail 


xx 


下 生成 如 图 10.3 所 示 的 文件 及 目录 。 


(py36env) aaron@ubuntu:~/airflow$ tree 


airflc fg 
六 airflow.db 


[一 


-一 Unittests.cfg 


upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 
upgrade 


upgrade 


d2ae31099d61 -> 0e2a74e0fc9f, 


d2ae31099d61 -> 33ae817alff4, 


33ae817alff4 -» 27c6a30d7c24, 


27c6a30d7c24 -> 86770d1215c0, 


86770d1215c0, 0e2a74eO0fc9f -> 


05£30312d566 -> £23433877c24, 


£23433877c24 -> 856955da8476 


856955da8476 -> 9635ae0956e7, 


- 步 会 使 用 SQLite3 (EN Airflow 的 知识 库 来 存储 调度 相关 的 信息 ， 同 时 在 ~/airflow 的 


图 10.3 Airflow 初始 化 生成 的 文件 及 目录 


其 中 : 

€  airflow.cfg X Airflow 的 所 有 默认 的 配置 信息 。 
e. 

© logs 存储 调度 scheduler 的 日 志 信息 。 

€  unittests.cfg Æ Airflow 单元 测试 的 配置 信息 ， 


airflow.db 是 Airflow 的 默认 数据 库 , 是 SQLite3 数据 库 , 仅 适用 于 SequentialExecutor。 


一 般 使 用 过 程 中 很 少 使 用 。 


前 面 已 经 讲 过 Airflow 默认 使 用 UTC 时 区 ， 如 果 有 crontab 类 型 的 定时 任务 ， 我 们 就 需要 
做 相应 的 转换 , 但 Web 页 面 仍 显 示 UTC 时 间 。 由 于 大 多 数 场景 下 我 们 运行 的 任务 均 在 一 个 时 
， 因 此 修改 airflow.cfg 的 时 区 使 用 本 地 时 区 是 比较 方便 的 。 


修改 airflow.cfg 文件 ， 找 到 时 区 设置 部 分 。 


ult_timezone = 'Asia/Shanghai' 


保持 其 他 配置 不 变 ， 启 动 webserver。 
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从 图 104 中 可 以 看 到 服务 的 默认 端口 为 8080, dag 文件 的 路 径 指 向 
/home/aaron/airflow/dags， 超 时 120 秒 。 我 们 可 以 在 启动 webserver 时 指定 相应 的 端口 ， 如 : 


airflow scheduler -p 8080 


图 10.4 启动 Airflow webserver 


在 浏览 器 中 输入 http:// 服 务 器 下:8080， 可 以 访问 到 如 图 10.5 所 示 的 页 面 。 


Search: 
o DAG Schedule Owner Recent Tasks @ Last Run B DAG Runs @ Links. 
cm: Um artew G*edn4EsEC 
G m. EX OPO MAREC 
c m cC row OFm mse EC 
c m now ~ OF OMDAE FES 
c m stor c3 G*san4E£SC 
o m pe kuberneles, opes c3 OF OMAR SES 
© [M cxampie_possing param: a Ga x G*vanagssc 
c m a c3 an OFC MAES ES 
c [四 Cn a OF eMse +c 
G m ELE n O*eMsE 4ES 
come co artev OF wuss FEC 
c m. co am O*S4BAE£EO 

None 2 TETE 


图 10.5 Airflow webserver 


我 们 从 webserver 的 截图 中 看 到 一 些 Airflow 的 DAG 样 例 ,可 以 在 设计 自己 的 DAG 时 作 
为 参考 ， 也 可 以 修改 airflow.cfg 中 的 配置 禁止 载 入 DAG 样 例 。 
load examples = False # 关 闭 DAG 样 例 

在 DAG 视图 下 ， 可 以 查看 当前 DAG 的 运行 状态 、 历 史 成 功 /失败 次 数 ， 页 面 右 侧 是 
功能 按钮 ， 如 触发 DAG 运行 、 查 看 树 结构 、 查 看 图 结构 、 任 务 持续 时 间 、 任 务 执行 次 数 、 任 
务 耗 时 分 析 、 干 特 图 、 查 看 DAG 代码 、 查 看 日 志 、 刷 新 DAG 等 。 


IÈ 
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(2) 运行 第 一 个 DAG。 
我 们 首先 从 Airflow 提供 的 DAG 样 例 中 复制 一 个 到 airflow 目录 下 的 dag 目录 , 执行 如 下 
命令 。 


cd py36env/lib/python3.6/site-packages/airflow/example dags/ 
cp tutorial.py /home/aaron/airflow/dag/mytutorial .py 


然后 修改 mytutorial.py 中 的 DAG， 其 定义 如 下 : 


dag = DAG( 
'mytutorial', 
default args-default args, 
description-'A simple tutorial DAG', 
Schedule interval-timedelta (days=1) 


其 他 地 方 保持 不 变 ， 目 的 是 为 了 与 样 例 区 分 。 上 述 代 码 中 : 


Schedule interval-timedelta (days-1) 


表示 调度 的 时 间 间 隔 为 一 天 ， 也 可 以 定义 crontab 类 型 的 任务 ， 如 : 


Schedule interval-"0 9 * * *” 


表示 每 天 9 点 开始 执行 作业 。 
现在 已 经 编写 好 了 第 一 个 DAG (ES, CH=MES, HAE. 12. G. EH tl 的 定义 
如 下 : 


tl = BashOperator ( 
task id-'print date', 
bash command-'date', 
dag-dag) 


任务 tl 使 用 BashOperator, 可 以 执行 shell 命令 ,这 里 的 bash command-'date C ATA (7 shell 
命令 中 的 date。 任 务 刀 和 任务 tl 类 似 ， 让 当前 shell 命令 暂停 5 秒 。 任 务 13 如 下 : 


t3 = BashOperator ( 
task id-'templated', 
depends on past-False, 
bash command-templated command, 
params-('my param': 'Parameter I passed in'], 
dag-dag) 


任务 (3 仍 使 用 BashOperator， 但 使 用 了 模板 。 模 板 的 定义 如 下 : 


templated command = """ 

{% for i in range (5) $) 
echo Si da JIS 
echo "{{ macros.ds add(ds, 7)}}" 
echo "{{ params.my param }}" 

{% endfor %} 


这 里 使 用 了 Jinja 模板 引擎 ， 使 用 标签 for 来 循环 执行 命令 ， 使 用 双 大 括号 来 引用 参数 ， 
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其 中 ds 是 日 期 宏 变 量 ，ds_add 是 计算 日 期 相 加 的 宏 函 数 ， 可 以 直接 使 用 。 而 params 是 自 定 义 
的 变量 ， 通 过 向 BashOperator 传递 参数 params={'my_param': 'Parameter I passed in'] 2c ík A 
板 中 的 变量 ， 可 以 看 出 Airflow 模板 使 用 起 来 非常 灵活 。 


10.2.4 指定 依赖 关系 
指定 依赖 关系 的 代码 如 下 : 


t2.set upstream(t1) 
t3.set_upstream(t1) 


表示 任务 世 Al 13 均 依赖 于 任务 t， 只 有 任务 tl 结束 后 ， 任 务 ORI G 才 可 以 开始 运行 。 
也 可 以 使 用 下 面 的 方式 指定 依赖 关系 : 


t1>>t2 
tl>>t3 


后 面 这 种 方式 是 非常 简洁 明了 的 ， 推 荐 使 用 。 


10.2.5 ”启动 scheduler 


要 想 让 刚才 编写 的 mytutorial.py 中 的 三 个 任务 得 到 执行 ， 需 要 启动 sheduler。 直 接 启动 
Scheduler， 执 行 结果 如 图 10.6 所 示 。 


图 10.6 启动 scheduler 


可 以 看 到 日 志 信息 的 第 一 行 有 Won: 当 使 用 SQLite 时 无 法 使 用 多 线程 ， 设 置 最 
大 线程 数 为 1。 这 个 是 可 以 理解 的 ，SQLite 不 能 并 发 访问 ， 而 且 本 来 默认 的 就 是 
SequentialExecutor。 在 实际 应 用 中 , 要 保 scheduler 持续 运行 , 可 以 使 用 airflow scheduler -D 
命令 启动 scheduler 守护 进程 ， 在 后 台 持 续 运 行 。 

启动 scheduler 成 功 后 ， 我 们 再 次 打开 webserver 的 Web 页 面 (http:// 服 务 器 IP:8080) ， 
可 以 看 到 mytutorial 任务 已 经 出 现在 列表 中 ， 如 图 10.7 所 示 。 
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图 10.7 DAG 列表 


将 其 左边 的 开关 置 于 On 状态 ， 表 示 启 动 调度 器 调度 任务 。 高 度 器 会 检查 DAG 文件 中 
触发 条 件 ， 如 果 条 件 满足 而 没 运行 DAG， 就 将 其 置 为 On， 如 图 10.8 所 示 。 


e Ep ovv =o © ° [o **apiRi aD 
e 四 ID © o ) **abpikSEC 
e " [son ee | © e [o] Ove antares 


图 10.8 DAG 运行 情况 展示 
至 此 ， 一 个 基于 SQLite 数据 库 的 Airflow 调度 服务 已 经 启动 ， 并 且 可 以 添加 
执行 器 为 SequentialExecutor， 这 种 部 署 方 式 单 ， 也 是 最 接近 默认 配置 的 ， 
环 


Airflow 配置 MySQL 知识 库 
和 LocalExecutor 


Airflow 使 用 SQLite 数据 库 作 为 元 数据 库 (知识 库 )， 元 数据 库存 放 一 些 DAG 相关 信息 、 
连接 信息 、 日 志 信 息 等 。 我们 可 以 使 用 sqlite3 命令 查看 Airflow 知识 库 所 包含 的 表 清 单 ， 如 图 
10.9 所 示 。 


connection 
dag 
dag_pickle 


mytutoriall 110111 
sqlite 


图 10.9 Airflow 的 知识 库 
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SQLite 是 一 个 轻 量 级 的 文件 型 数据 库 ， 读 操作 可 以 并 发 执行 ， 但 增 、 删 、 改 操作 时 会 有 
锁 , 即 同一 时 刻 只 有 一 个 进程 /线程 来 进行 写 操作 。 由 于 生产 环境 往往 是 高 并 发 的 , 因此 SQLite 
可 用 作 Airflow 的 测试 环境 ， 生 产 环境 还 是 要 使 用 支持 并 发 写 的 数据 库 ， 如 MySQL. Oracle 
等 。 本 节 介绍 如 何 配置 Airflow 使 用 MySQL 作为 知识 库 。 

在 Web 应 用 方面 ， MySQL 是 最 好 的 RDBMS (Relational Database Management System: 
关系 数据 库 管 理 系 统 ) 应 用 软件 之 一 ， 使 用 MYSQL 作为 Airflow 的 知识 库 也 是 非常 合适 的 。 
下 面 我 们 一 步 步 来 配置 MySQL 作为 Airflow 的 知识 库 。 


第 一 步 : 安装 MySQL。 


$ sudo apt-get update # 更 新 源 
$ sudo apt-get install mysql-server 47 
$ sudo mysql secure installation # 安 全 配置 


验证 : 
$ sudo netstat -tap | grep mysql 
tcp 0 0 localhost:mysql 0-20-0505" LISTEN 
12793/mysqld 


说 明 安 装 成 功 ，mysql 服务 已 自动 启动 。 下 面 连接 MySQL: 


$ mysql -u root -p 
Enter password: 
ERROR 1698 (28000): Access denied for user 'root'@'localhost' 


如 果 出 现 上 面 的 错误 ， 就 切换 到 root 用 户 ， 查 看 用 户 表 的 详情 。 


$ su - root 

Password: 

root@ubuntu:~# mysql 

Welcome to the MySQL monitor. Commands end with ; or Mg. 
Your MySQL connection id is 22 

Server version: 5.7.23-0ubuntu0.18.04.1 (Ubuntu) 


Copyright (c) 2000, 2018, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 

affiliates. Other names may be trademarks of their respective 

owners. 

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 
mysql> use mysql; 

Reading table information for completion of table and column names 

You can turn off this feature to get a quicker startup with -A 

Database changed 


mysql> select user,plugin from user; 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
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| user | plugin | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| root | auth socket | 

| mysql.session | mysql native password | 

| mysql.sys | mysql native password 

| debian-sys-maint | mysql native password | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


4 rows in set (0.00 sec) 


查看 一 下 user 表 ， 错 误 的 起 因 就 在 这 里 ，root 的 plugin 被 修改 成 了 auth_socket， 用 密码 
登录 的 plugin 应 该 是 mysql native password。 关 于 auth socket 方式 登录 ， 查 看 官方 文档 ; 
https://dev.mysql.com/doc/mysql-security-excerpt/$5.5/en/socket-authentication-plugin.html。 

现在 我 们 需要 在 本 地 使 用 密码 登录 ， 修 改 root 用 户 的 plugin 即 可 。 执 行 SQL 如 下 : 


mysql» update mysql.user set authentication string=PASSWORD(' 你 的 密码 ')， 
plugin-'mysql native password' where user-'root'; 

Query OK, 1 row affected, 1 warning (0.00 sec) 

Rows matched: 1 Changed: 1 Warnings: 1 


再 重新 启动 一 下 服务 ， 问 题 即 可 得 到 解决 。 


$ sudo service mysql stop 

$ sudo service mysql start 

$ mysql -u root -p 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or Mg. 
Your MySQL connection id is 2 

Server version: 5.7.23-0ubuntu0.18.04.1 (Ubuntu) 


Copyright (c) 2000, 2018, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 


affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 
mysql> 

第 二 步 : 创建 数据 库 并 分 配 用 户 和 权限 。 

使 用 root 用 户 进 入 MySQL 数据 库 ， 创 建 数据 库 airflow。 


mysql> show databases; 


| information schema | 
| mysql 

| performance schema | 
| sys l 
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4 rows in set (0.05 sec) 
mysql> create database airflow; 
Query OK, 1 row affected (0.00 sec) 


mysql> show databases; 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

| Database | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

| information schema | 

| airflow | 

| mysql 

| performance schema | 

| sys | 

4+-------------------- + 

5 rows in set (0.00 sec) 
分 配 airflow 的 权限 给 用 户 aaron. 


mysql> grant all privileges on airflow.* to '‘aaron'@'localhost' identified by 
"Aaron123='; 

Query OK, 0 rows affected, 1 warning (0.03 sec) 

mysql>flush privileges; 

Query OK, 0 rows affected (0.00 sec) 


第 三 步 : 修改 Airflow 的 配置 文件 并 初始 化 。 


创建 好 数据 库 airflow 后 ， 需 要 通知 Airflow 我 们 创建 好 的 数据 库 。 如 果 想 要 更 好 的 并 发 
效果 ， 则 修改 executor。 
执行 步骤 如 下 : 


(1) 进入 $AIRFLOW_HOME/airflow 目录 ， 修 改 airflow.cfg 文件 (如 果 未 设置 环境 变量 ， 
则 配置 文件 的 默认 位 置 为 ~/airflow/airflow.cfg) 。 


修改 sql alchemy conn 的 值 为 : 


Sql alchemy conn = mysql://aaron:Aaron123=@localhost/airflow 


这 里 连接 URL 的 字段 解释 如 下 : 


dialect+driver: //username :password@host :port/database 


如 果 想 要 更 好 的 并 发 效果 ， 则 修改 executor. 


executor = LocalExecuto 


(2) 初始 化 数据 库 生成 元 数据 库 的 表 信 息 。 


$ airflow initdb 


这 里 如 果 是 使 用 Python 3 的 读者 可 能 会 遇 到 如 图 10.10 所 示 的 报错 信息 。 
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图 10.10 找 不 到 MySQLdb 模块 
Python 3 中 不 再 使 用 MySQLdb， 取 而 代 之 的 是 pymysql。 解 决 方法 是 ， 修 改 上 图 中 标注 
的 文件 home/aaron/.locallib/python3.6/site-packages/airflow/_init .py， 即 在 开始 处 加 入 : 


import pymysql 
pymysql.install as MySQLdb() 


如 图 10.11 所 示 。 


图 10.11 在 Airflow 中 导入 pymysql 


再 次 运行 airflow initdb 命令 即 可 完成 元 数据 库 的 初始 化 ,因为 MySQL 数据 库 的 配置 不 同 ， 
所 以 继续 运行 airflow initdb 命令 ， 有 可 能 会 报 下 述 错误 : 


Exception: Global variable explicit defaults for timestamp needs to be on (1) 
for mysql 

如 果 报 这 种 错误 ， 则 说 明 MySQL 数据 库 要 设置 全 局 变量 
explicit defaults for timestamp=true， 修 改 /etc/mysql/my.cnf 加 入 以 下 内 容 即 可 。 


[mysqld] 
explicit defaults for timestamp-true 


运行 airflow initdb 命令 即 可 完成 元 数据 库 表 的 创建 。 

aaron@ubuntu:~$ airflow initdb 

[2018-09-20 07:04:55,088] {settings.py:174} INFO - setting.configure orm(): Using 
pool settings. pool size=5, pool recycle=1800 

[2018-09-20 07:04:55,228] { init .py:51) INFO - Using executor 
SequentialExecutor 

DB: mysql://aaron:***@localhost/airflow 

[2018-09-20 07:04:55,372] {db.py:338} INFO - Creating tables 

INFO [alembic.runtime.migration] Context impl MySQLImpl. 

INFO [alembic.runtime.migration] Will assume non-transactional DDL. 
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INFO [alembic.runtime.migration] Running upgrade -> e3a246e0dcl, current schema 
INFO [alembic.runtime.migration] Running upgrade e3a246e0dcl -> 1507a7289a2f, 
create is encrypted 

INFO [alembic.runtime.migration] Running upgrade 1507a7289a2f -> 13eb55f81627, 
maintain history for compatibility with earlier migrations 

INFO [alembic.runtime.migration] Running upgrade 13eb55£81627 -> 338e90f54d61, 
More logging into task isntance 

INFO [alembic.runtime.migration] Running upgrade 338e90f54d61 -> 52d714495f0, 
job id indices 

INFO [alembic.runtime.migration] Running upgrade 52d714495f0 -» 502898887f84, 
Adding extra to Log 

INFO [alembic.runtime.migration] Running upgrade 502898887f84 -» 1b38cef5b76e, 
add dagrun 

INFO [alembic.runtime.migration] Running upgrade 1b38cef5b76e -» 2e541aldcfed, 
task duration 

INFO [alembic.runtime.migration] Running upgrade 2e541aldcfed -» 40e67319e3a9, 
dagrun config 

INFO [alembic.runtime.migration] Running upgrade 40e67319e3a9 -> 561833clc74b, 
add password column to user 

INFO [alembic.runtime.migration] Running upgrade 561833clc74b -> 4446608588, 
dagrun start end 

INFO [alembic.runtime.migration] Running upgrade 4446608588 -> bbc73705a13e, Add 
notification sent column to sla miss 

INFO [alembic.runtime.migration] Running upgrade bbc73705al3e -> bba5a7cfc896 
Add a column to track the encryption state of the 'Extra' field in connection 
INFO [alembic.runtime.migration] Running upgrade bba5a7cfc896 -» 1968acfc09e3, 
add is encrypted column to variable table 

INFO [alembic.runtime.migration] Running upgrade 1968acfc09e3 -> 2e82aab8ef20, 
rename user table 

INFO [alembic.runtime.migration] Running upgrade 2e82aab8ef20 -» 211e584da130, 
add TI state index 

INFO [alembic.runtime.migration] Running upgrade 211e584dal30 -> 64de9cddf6c9, 
add task fails journal table 

INFO [alembic.runtime.migration] Running upgrade 64de9cddf6c9 -> f2cal0b85618, 
add dag stats table 

INFO [alembic.runtime.migration] Running upgrade f2cal0b85618 -> 4addfal236f1, 
Add fractional seconds to mysql tables 

INFO [alembic.runtime.migration] Running upgrade 4addfal236f1 -> 8504051e801b, 
xcom dag task indices 

INFO [alembic.runtime.migration] Running upgrade 8504051e801b -> 5e7d17757c7a, 
add pid field to TaskInstance 

INFO [alembic.runtime.migration] Running upgrade 5e7d17757c7a -> 127d2bf2dfa7, 
Add dag id/state index on dag run table 

INFO [alembic.runtime.migration] Running upgrade 127d2bf2dfa7 -» ccle65623dc7, 
add max tries column to task instance 

INFO [alembic.runtime.migration] Running upgrade ccle65623dc7 -> bdaa763e6c56, 
Make xcom value column a large binary 

INFO [alembic.runtime.migration] Running upgrade bdaa763e6c56 -> 947454bfldff, 
add ti job id index 

INFO [alembic.runtime.migration] Running upgrade 947454bfldff -» d2ae31099d61, 
Increase text size for MySQL (not relevant for other DBs' text types) 
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Add ti 
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kubernetes resource checkpointing 
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kubernetes resource checkpointing 


INFO 


alembic.runtime.migration 
me zone awareness 
alembic.runtime.migration 


alembic.runtime.migration 


alembic.runtime.migration 


Running 
Running 
Running 


Running 


add kubernetes scheduler uniqueness 


INFO 
05£303 
INFO 


alembic.runtime.migration 
12d566, merge heads 
alembic.runtime.migration 


fix mysql not null constraint 


INFO 


alembic.runtime.migration 


fix sqlite foreign key 


INFO 
index- 
Done. 
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alembic.runtime.migration 
faskfail 


airfl 


Running 
Running 
Running 


Running 


upgrade 


upgrade 


upgrade 


upgrade 


upgrade 


upgrade 


upgrade 


upgrade 


登录 MySQL 数据 库 查 询 表 清 单 ， 如 图 10.12 所 示 。 


d2ae31099d61 -> 0e2a74e0fc9f, 


d2ae31099d61 -> 33ae817alff4, 


33ae817alff4 -> 27c6a30d7c24, 


27c6a30d7c24 -> 86770d1215c0, 


86770d1215c0, 0e2a74e0fc9f -> 


05£30312d566 -> f23433877c24, 


f23433877c24 -» 856955da8476 


856955da8476 -» 9635ae0956e7, 


j table information for completion of table and column names 
You can turn off this feature to get a quicker startup with -A 


Database changed 
mysql> show tables; 


Tables in airflow 


alembic version 


1 variable 


ows in set (0.01 si 


图 10.12 


四 步 : 启动 Airflow。 


启动 webserver 守护 进程 。 


$ airf 


low webserver -D 


MySQL 数据 库 
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启动 sheduler 守护 进程 。 
$ airflow scheduler -D 


即 可 运行 一 个 执行 器 为 LocalExecutor 的 Airflow 调度 系统 ， 用 于 生产 环境 。 现 在 我 们 可 
以 添加 DAG 任务 跑 批 了 。 


1 0 e 4 Airflow 配置 Redis 和 CeleryExecutor 


CeleryExecutor 使 用 让 Celery 作为 Task 执行 的 引擎 ， 具有 极 强 的 扩展 性 。 使 用 Redis 数据 
库 作为 消息 中 间 人 Cbroker) KHE CeleryExecutor 也 是 一 种 常见 的 生产 环境 级 别 的 配置 。 

Celery 是 分 布 式 任务 队列 ， 在 第 9 章 已 经 介绍 过 ， 与 调度 工具 Airflow 强 强 联合 ， 可 实现 
复杂 的 分 布 式 任务 调度 ， 这 就 是 CeleryExecutor。 有 了 CeleryExecutor， 我 们 可 以 调度 本 地 或 
远程 机 器 上 的 作业 ， 实 现 分 布 式 任务 调度 。 

下 面 是 具体 的 操作 步 又 。 


第 一 步 : 安装 Celery。 

CeleryExecutor 需要 Python 环境 安装 有 Celery， 为 启动 worker 做 准备 。 
pip install celery 

Celery 需要 一 个 发 送 和 接受 消息 的 传输 者 broker. RabbitMQ 和 Redis 是 官方 推荐 的 生产 
环境 级 别 的 broker， 这 里 我 们 使 用 Redis， 因 为 安装 和 使 用 都 非常 方便 ， 而 RabbitMQ 的 安装 
需要 Erlang 支持 。 如 果 在 生产 环境 选择 使 用 RabbitMQ， 可 参考 RabbitMQ 官方 网 站 的 安装 和 
配置 方法 。 

第 二 步 : 安装 Redis。 

先 从 https://redis.io/download 下 载 稳定 版 本 ， 目 前 是 redis-4.0.11.tar.gz。 


$ tar -zxvf redis-4.0.11.tar.gz 

$ cd redis-4.0.11 

$ make EME 

$ make test Ki 

$ cp redis.conf src/ # 将 配置 文件 复制 ， 可 以 执行 文件 同一 目录 

$ cd sre 

$ ./redis-server redis.conf # 按 默认 方式 启动 redis-server ， 仅 监听 127.0.0.1 ， 若 监听 
其 他 $ ip ， 则 修改 为 bind 0.0.0.0 


启动 Redis 数据 库 后 的 输出 如 图 10.13 所 示 。 
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图 10.13 启动 Redis 数据 库 


实际 应 用 时 需要 在 后 台 持 续 运 行 。 
nohup ./redis-server redis.conf 2>1& 

第 三 步 : 修改 Airflow 配置 文件 。 

我 们 需要 修改 配置 文件 告诉 Airflow Redis 数据 库 的 连 
为 Redis， 就 需要 指向 Redis 数据 库 
# 修 改 3 处 : 


executor = CeleryExecutor 
broker url = redis://127.0.0.1:6379/0 
celery result_backend = redis://127.0.0.1:6379/0 


如 果 想 把 运行 结果 修改 


第 四 步 : 启动 Airflow 相关 进程 


# 启 动 webserver 

# 后 人 台 运 行 airflow webserver -p 8080 -D 
airflow webserver -p 8080 

# 启 动 scheduler 

# 后 台 运 行 airflow scheduler -D 
airflow scheduler 

#43) worker 

# 后 台 运 行 airflow worker -D 

# 若 提示 addres already use ， 则 查看 worker log server port = 8793 是 否 被 占用 ， 如 是 就 修 
改 为 8974 等 

# 未 被 占用 的 端口 

airflow worker 

+A flower -- 可 以 不 启动 

# 后 台 运 行 airflow flower -D 

airflow flower 


(1) 3817 airflow worker 可 以 指定 队列 名 称 ， 默 认为 default。 


$ airflow worker --help 
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[2018-09-20 21:56:51,822] {settings.py:174} INFO - setting.configure orm(): Using 
pool settings. pool size=5, pool recycle=1800 
[2018-09-20 21:56:52,178] { init .py:51) INFO - Using executor CeleryExecutor 
usage: airflow worker [-h] [-p] [-q QUEUES] [-c CONCURRENCY] 

[-cn CELERY HOSTNAME] [--pid [PID]] [-D] 

[--stdout STDOUT] [--stderr STDERR] [-1 LOG FILE] 


optional arguments: 


-h, --help show this help message and exit 

-p, --do pickle Attempt to pickle the DAG object to send over to the 
workers, instead of letting workers run their version 
of the code. 


-q QUEUES, --queues QUEUES 
Comma delimited list of queues to serve 
-c CONCURRENCY, --concurrency CONCURRENCY 
The number of worker processes 
-cn CELERY HOSTNAME, --celery hostname CELERY HOSTNAME 
Set the hostname of celery worker if you have multiple 
workers on a single machine. 


--pid [PID] PID file location 

-D, --daemon Daemonize instead of running in the foreground 
--stdout STDOUT Redirect stdout to this file 

--stderr STDERR Redirect stderr to this file 


-1 LOG FILE, --log-file LOG FILE 
Location of the log file 


例如 ， 运 行 worker 在 队列 web task 上 。 


$ airflow worker -q web task 


在 其 他 节点 也 安装 Airflow， 只 运行 worker。 在 DAG 任务 中 指定 任务 队列 即 可 实现 分 布 
式 任务 调度 。 


(2) 在 运行 airflow flower 时 请 先 安装 Flower. 


pip install flower 


再 启动 airflow flower. 


$ airflow flower 


Flower 的 启动 默认 端口 为 5555， 也 可 以 通过 指定 端口 号 来 修改 它 。 
$ airflow flower --port 5555 


Airflow 任务 开发 Operators 


部 署 Airflow 的 目的 是 为 了 更 好 地 使 用 ， 使 用 Airflow 离 不 开 作 业 流 DAGs 的 编写 ， 而 作 
业 流 都 是 由 一 个 个 任务 组 成 的 ， 即 各 种 Operator。 本 节 介 绍 如 何 使 用 Airflow 提供 的 Operators 
及 如 何 自 定 义 Operator。 
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10.5.1 Operators 简介 


Operators 允许 生成 特定 类 型 的 任务 , 这些 任务 在 实例 化 时 成 为 DAG 中 的 任务 节点 。 所 有 
的 Operator 均 派 生 自 BaseOperator， 并 以 这 种 方式 继承 许多 属性 和 方法 。 

Operator 主要 有 以 下 三 种 类 型 。 

€ ”执行 一 项 操作 或 在 远程 机 器 上 执行 一 项 操作 。 

€ ”将 数据 从 一 个 系统 移动 到 另 一 个 系统 。 

© 类似 传感器 ， 是 一 种 特定 类 型 Operator， 它 将 持续 运行 ， 直 到 满足 某 种 条 件 。 例 如 
在 HDFS 或 S3 中 等 待 特定 文件 到 达 ， 在 Hive 中 出 现 特定 的 分 区 或 一 天 中 的 特定 时 
间 ， 继 承 自 BaseSensorOperator. 


10.5.2 BaseOperator 简介 


所 有 Operator 都 是 从 BaseOperator 派生 而 来 的 ， 并 通过 继承 获得 更 多 功能 。 这 也 是 引擎 
的 核心 ， 所 以 有 必要 花 些 时 间 来 理解 BaseOperator 的 参数 ， 以 了 解 Operator 基本 特性 。 

先 来 看 一 下 构造 函数 的 原型 。 
class airflow.models.BaseOperator(task id, owner-'Airflow', email-None, 
email on retry-True, email on failure-True, retries-0, 
retry delay-datetime.timedelta(0, 300), retry exponential backoff-False, 
max retry delay-None, start date-None, end date-None, schedule interval-None, 
depends on past-False, wait for downstream-False, dag-None, params-None, 
default args-None, adhoc-False, priority weight-1, weight rule-u'downstream', 
queue-'default', pool-None, sla-None, execution timeout-None, 
on failure callback-None, on success callback-None, on retry callback-None, 
trigger rule-u'all success', resources-None, run as user-None, 
task concurrency-None, executor config-None, inlets-None, outlets-None, *args, 
**kwargs) 

这 里 有 很 多 参数 ， 可 查阅 官方 文档 了 解 详细 的 解释 ， 这 里 不 再 详 述 。 需 要 注意 的 是 ,参数 
start date 决定 了 任务 第 一 次 运行 的 时 间 ， 最 好 的 实践 是 设置 start date 在 schedule interval [ft 
近 。 比 如 每 天 跑 的 任务 开始 日 期 设 为 2018-09-2100:00:00， 每 小 时 跑 的 任务 设置 为 
'2018-09-2105:00:00', airflow 将 start. date 加 上 schedule interval 作为 执行 日 期 。 任 务 的 依赖 需 
要 及 时 排除 ， 如 任务 A 依赖 任务 B， 但 由 于 两 者 start_date 不 同 导 致 执行 日 期 不 同 ， 那 么 任务 
A 的 依赖 永远 不 会 被 满足 。 如 果 需 要 执行 一 个 日 常任 务 ， 比 如 每 天 下 午 2 点 开始 执行 ， 就 可 以 
在 DAG 中 使 用 cron 表达 式 。 


Schedule interval-"0 14 * * a" 


或 者 考虑 使 用 TimeSensor 或 TimeDeltaSensor. 由 于 所 有 Operator 都 继承 自 BaseOperator, 
因此 BaseOperator 的 参数 也 是 其 他 Operator 的 参数 。 


10.5.3 BashOperator 的 使 用 
官方 提供 的 DAG 示例 一 一 tutorial 就 是 一 个 典型 的 BashOperator， 调 用 bash 命令 或 脚本 ， 
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传递 模板 参数 就 可 以 参考 tutorial. 


### Tutorial Documentation 

Documentation that goes along with the Airflow tutorial located 
[here] (http: //pythonhosted.org/airflow/tutorial.html) 

"nn 

import airflow 

from airflow import DAG 

from airflow.operators.bash operator import BashOperator 

from datetime import timedelta 


# these args will get passed on to each operator 
# you can override them on a per-task basis during operator initialization 
default args = ( 
'owner': 'airflow', 
'depends on past': False, 
"start date': airflow.utils.dates.days ago (2), 
'email': ['airflow@example.com'], 
"email on failure': False, 
"email on retry': False, 
'retries': 1, 
"retry delay': timedelta (minutes-5), 
# 'queue': 'bash queue', 
'pool': 'backfill', 
'priority weight': 10, 
'end date': datetime(2016, 1, 1), 
'wait for downstream': False, 
'dag': dag, 
"adhoc':False, 
'sla': timedelta(hours=2), 
"execution timeout': timedelta(seconds=300), 
"on failure callback': some function, 
"on success callback': some other function, 
"on retry callback': another function, 
"trigger rule': u'all success' 


+ 
+ 
t 
t 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 


) 


dag = DAG( 
'tutorial', 
default args-default args, 
description-'A simple tutorial DAG', 
Schedule interval-timedelta (days-1)) 


# tl, t2 and t3 are examples of tasks created by instantiating operators 
tl = BashOperator( 

task id-'print date',  d4xHibuUÉ—^^ bash 脚本 文件 

bash command-'date', 

dag-dag) 


tl.doc md = """V 

#4### Task Documentation 

You can document your task using the attributes ‘doc md' (markdown), 

‘doc’ (plain text), “doc rst*, ‘doc json, ‘doc yaml' which gets 

rendered in the UI's Task Instance Details page. 

! [img] (http: //montcs.bloomu.edu/~bobmon/Semesters/2012-01/491/import%20soul.pn 


q) 


"nn 
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dag.doc md = doc 


t2 = BashOperator ( 
task id-'sleep', 
depends on past-False, 
bash command-'sleep 5', 
dag-dag) 


templated command = """ 

{% for i in range (5) %} 
echo mit ds ym 
echo "(( macros.ds add(ds, 7)}}" 
echo "{{ params.my param }}" 

{% endfor %} 


t3 = BashOperator ( 
task id-'templated', 
depends on past-False, 
bash command-templated command, 
params={'my param': 'Parameter I passed in'], 
dag-dag) 


t2.set upstream(tl) 
t3.set upstream(tl) 


XB tl Al O 都 很 容易 理解 ， 直 接 调用 的 是 bash 命令 ， 其 实 也 可 以 传 入 带路 径 的 bash 脚 
本 ; OG 使 用 了 Jinja 模板 ，"{%%}" 内 部 是 for 标签 ， 用 于 循环 操作 。"{{}}" 内 部 是 变量 ， 其 中 
ds 是 执行 日 期 ， 也 是 airflow 的 宏 变 量 ，params.my_param 是 自 定义 变量 。 根 据 官方 网 站 提供 
的 模板 ， 稍 加 修改 即 可 满足 我 们 的 日 常 工作 所 需 。 


10.5.4 PythonOperator 的 使 用 


PythonOperator 可 以 调用 Python 函数 ，Python 基本 可 以 调用 任何 类 型 的 任务 ， 如 果实 在 
找 不 到 合适 的 Operator， 就 将 任务 转 为 Python 函数 ， 再 使 用 PythonOperator. 


下 面 是 官方 文档 给 出 的 PythonOperator 使 用 的 样 例 。 


from future import print function 

from builtins import range 

import airflow 

from airflow.operators.python operator import PythonOperator 
from airflow.models import DAG 


import time 
from pprint import pprint 


args = { 

'owner': 'airflow', 

'start date': airflow.utils.dates.days ago (2) 
) 


dag = DAG( 


dag id-'example python operator', default args-args, 
Schedule interval-None) 
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def my sleeping function (random base) : 
"""This is a function that will run within the DAG execution""" 
time.sleep(random base) 


def print context(ds, **kwargs) : 
pprint (kwargs) 
print (ds) 
return 'Whatever you return gets printed in the logs' 


run this - PythonOperator( 
task id-'print the context', 
provide context-True, 
python callable-print context, 
dag-dag) 


# Generate 10 sleeping tasks, sleeping from 0 to 9 seconds respectively 
for i in range(10): 
task = PythonOperator( 
task id-'sleep for ' + str(i), 
python callable-my sleeping function, 
op kwargs={'random base': float(i) / 10}, 
dag-dag) 


task.set upstream(run this) 


通过 以 上 代码 可 以 看 到 ， 任 务 task 及 依赖 关系 都 是 可 以 动态 生成 的 ， 这 在 实际 应 用 中 会 
减少 代码 编写 数量 ， 逻 辑 也 非常 清晰 ， 使 用 非常 方便 。PythonOperator 与 BashOperator 基本 类 
似 ， 不 同 的 是 python_callable 传 入 的 是 Python 函数 ， 而 后 者 传 入 的 是 bash 指令 或 脚本 。 通 过 
op kwargs 可 以 传 入 N 个 参数 。 


10.5.5 SSHOperator 的 使 用 


在 实际 的 任务 调度 中 , 任务 大 多 分 布 在 多 台 机 器 上 ， 如何 调 用 远程 机 器 的 任务 呢 ， 这 时 可 
以 简单 地 使 用 SSHOperator 来 调用 远程 机 器 上 的 脚本 任务 。SSHOperator 使 用 ssh 协议 与 远程 
主机 通信 ， 需 要 注意 的 是 ，SSHOperator 调用 脚本 时 并 不 会 读 取 用 户 的 配置 文件 ， 最 好 在 脚本 
中 加 入 以 下 代码 ， 以 便 脚本 被 调用 时 会 自动 读 取 当前 用 户 的 配置 信息 。 


. ~/.profile 
# 或 


a /bashre 


下 面 是 一 个 SSHOperator 的 任务 示例 。 


task crm = SSHOperator ( 

ssh conn id-'ssh crmetl', # 指定 conn id 

task id-'crmetl-filesystem-check', 

command-' /home/crmetl/bin/monitor/filesystem monitor.sh', # 远程 机 器 上 的 脚本 文 
件 

dag=dag 
) 
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这 里 ssh crmetl 是 一 个 连接 ID， 是 在 airflowwebserver 界面 配置 的 。 配 置 方法 如 下 : 
(1) 首先 打开 webserver， 单 击 Admin 菜单 下 的 Connections 项 ， 如 图 10.14 所 示 。 


aJ Airfülow DAGs ata Profiling ~ rowse- ^ Admin~ 


Pools 
Configuration 
Users 


Connections 


Variables 
Sched  xcoms Recent Tasks © 


图 10.14 AC airflow 的 连接 


(2) 然后 选择 Create 来 新 建 一 个 ssh 连接 ， 输 入 连接 id. IP 地 址 、 用 户 名 密码 等 信息 ， 
如 图 10.15 所 示 。 


Li Create 


Connia ssh crmeti 
Conn Type 
Host 


Schema 


Login 


Password 


图 10.15 创建 ssh 连接 
保存 之 后 ， 就 可 以 使 用 ssh_crmetl 来 调用 对 应 主机 上 的 脚本 了 。 


10.5.6 HiveOperator 的 使 用 

Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 , 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 
并 提供 简单 的 SQL 查询 功能 ， 也 可 以 将 SQL 语句 转换 为 MapReduce 任务 并 运行 。 在 Airflow 
中 调用 Hive 任务 ， 首 先 需要 安装 依赖 : 


pip install apache-airflow[hive] 


下 面 是 使 用 示例 。 


tl = HiveOperator ( 
task id-'simple query', 
hql='select * from cities', 
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dag=dag) 


常见 的 Operator 还 有 DockerOperator, OracleOperator, MysqlOperator, DummyOperator, 
SimpleHttpOperator 等 ， 使 用 方法 类 似 ， 不 再 一 一 介绍 。 


10.5.7 ”如 何 自 定义 Operator 


如 果 官 方 的 Operator 仍 不 能 满足 需求 , 就 自己 开发 一 个 Operator。 开 发 Operator 比较 简单 ， 
继承 BaseOperator 并 实现 execute 方法 即 可 。 


from airflow.models import BaseOperator 


class MyOperator (BaseOperator): 


def init  (*args, **kwargs): 
super(MyOperator, self). init  (*args, **kwargs) 


def execute(self, context): 
###do something here 


除了 execute 方法 外 ， 还 可 以 实现 on kill 方法 CE task 被 kill 时 执行 ) 。 
Airflow 是 支持 Jinjia 模板 语言 的 , 那么 如 何在 自 定 义 的 Operator 中 加 入 Jinjia 模板 语言 的 
支持 呢 ? 其 实 非常 简单 ， 只 需要 在 自 定义 的 Operator 类 中 加 入 属性 即 可 。 


template fields = (attributes to be rendered with jinja) 


例如 ， 官 方 的 bash_operator 中 是 这 样 的 : 


template fields = ('bash command', 'env') 


在 任务 执行 之 前 ，Airflow 会 自动 泻 染 bash. command Hk env 中 的 属性 。 

总 结 : Airflow 官方 已 经 提供 了 足够 多 、 足 够 实用 的 Operator， 涉 及 数据 库 、 分 布 式 文件 
系统 、HTTP 连接 、 远 程 任务 等 ， 可 以 参考 Airflow 的 Operator 源 代码 ， 己 基本 满足 日 常 工作 
需求 。 个 性 的 任务 可 以 通过 自 定义 Operator 来 实现 ， 更 为 复杂 的 任务 可 以 通过 restful api 的 形 
式 提 供 接 口 ， 然 后 使 用 SimpleHttpOperator 来 实现 任务 的 调用 。 


Airflow 集群 、 高 可 用 部 署 


集群 部 署 将 为 我 们 的 Apache-Airflow 系统 带 来 更 多 计算 能 力 和 高 可 用 性 。 本 节 详 细 介 绍 
如 何 搭建 Apache-Airflow 集群 系统 。 


10.6.1 Airflow 的 四 大 守护 进程 


Airflow 系统 在 运行 时 有 许多 守护 进程 ， 它 们 一 起 提供 了 Airflow 的 全 部 功能 。 守 护 进程 
包括 Web 服务 器 webserver、 调 度 程序 scheduler、 执 行 单元 worker、 消 息 队 列 监控 工具 Flower 
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等 。 下 面 是 Apache-Airflow 集群 、 高 可 用 部 署 的 主要 守护 进程 。 
(1) Web 服务 器 webserver: webserver 是 一 个 守护 进程 ， 它 接受 HTTP 请 求 ， 允 许 我 们 

通过 Python Flask Web 应 用 程序 与 Airflow 进行 交互 。webserver 提供 了 以 下 功能 : 
中 止 、 恢 复 、 触 发 任务 。 
监控 正在 运行 的 任务 ， 断 点 续 跑 任务 。 
执行 ad-hoc 命令 或 SQL 语句 来 查询 任务 的 状态 、 日 志 等 详细 信息 。 
配置 连接 ， 包 括 不 限于 数据 库 、ssh 的 连接 等 。 

webserver 守护 进程 使 用 Gunicorn 服务 器 (相当 于 Java 中 的 Tomcat) 处 理 并 发 请 求 ， 可 
通过 修改 {AIRFLOW_HOME}/airflow.cfg 文件 中 workers 的 值 来 控制 处 理 并 发 请 求 的 进程 数 。 
例如 : 
workers = 4 # 表 示 开 启 4 个 gunicorn worker (进程 ) 处 理 web 请 求 


启动 webserver 守护 进程 。 
$ airfow webserver -D 

(2) scheduler 是 一 个 守护 进程 ， 其 周期 性 地 轮 询 任务 的 调度 计划 ， 以 确定 是 否 触 发 任务 
执行 。 
$ airfow scheduler -D 

(3) worker 是 一 个 守护 进程 ， 其 启动 一 个 或 多 个 Celery 的 任务 队列 ， 负 责 执 行 具体 的 
DAG 任务 。 当 Airflow 的 executors 设置 为 CeleryExecutor 时 才 需 要 开启 worker 守护 进程 。 推 
荐 在 生产 环境 使 用 CeleryExecutor: 


executor = CeleryExecutor 


启动 一 个 worker 守护 进程 ， 默 认 的 队列 名 为 default. 


$ airfow worker -D 


(4) Flower 是 一 个 守护 进程 ， 用 于 监控 Celery 消息 队列 。 启 动 守护 进程 命令 如 下 : 


$ airflow flower -D 


默认 的 端口 为 5555, 可 以 在 浏览 器 地 址 栏 中 输入 http://hostip:5555 来 访问 Flower, 对 celery 
消息 队列 进行 监控 。 


10.6.2 Airflow 的 守护 进程 是 如 何 一 起 工作 的 

Airflow 的 守护 进程 彼此 之 间 是 独立 的 ， 它 们 并 不 相互 依赖 ， 也 不 相互 感知 。 每 个 守护 进 
程 在 运行 时 只 处 理 分 配 到 自己 身上 的 任务 ， 它 们 一 起 提供 了 Airflow 的 全 部 功能 。 

调度 器 scheduler 会 间隔 性 地 轮 询 元 数据 库 (Metastore) 已 注册 的 DAG (可 理解 为 作业 流 ) 
是 否 需要 被 执行 。 如 果 一 个 具体 的 DAG 根据 其 调度 计划 需要 被 执行 ，scheduler 守护 进程 就 会 
先 在 元 数据 库 创建 一 个 DagRun 实例 ， 并 触发 DAG 内 部 的 具体 任务 (task) 。 触 发 其 实 并 不 
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是 真正 的 执行 任务 , 而 是 推送 task 消息 至 消息 队列 Croker) H, 每 一 个 task 消息 都 包含 此 task 


的 DAGID、taskID 及 具体 需要 被 执行 的 函数 。 如 果 task 是 要 执行 bash ALAS, H 


会 包含 bash 脚本 的 代码 。 


KA task 消息 还 


用 户 可 能 在 webserver 上 控制 DAG， 比 如 手动 触发 一 个 DAG 去 执行 。 当 上 


户 这 样 做 的 时 


候 ， 一 个 DagRun 的 实例 将 在 元 数据 库 被 创建 ，scheduler 使 用 同样 的 方法 触发 DAG 中 具体 的 
task。 


worker 守护 进程 将 会 监听 消息 队列 ， 如 果 有 消息 ， 就 从 消息 队列 中 取出 消息 ， 当 取出 任 


务 消息 时 ， 它 会 更 新 元 数据 中 DagRun 实例 的 状态 为 正在 运行 ， 并 尝试 执行 DAG 中 的 task. 
WR DAG 执行 成 功 ， 则 更 新 DagRun 实例 的 状态 为 成 功 ， 否 则 更 新 状态 为 失败 。 


10.6.3 Airflow 单 节点 部 署 


将 以 上 所 有 守护 进程 运行 在 同一 台 机 器 上 即 可 完成 Airflow 的 单 节点 部 署 ， 


所 示 。 


[Node . 


Interaction 


"aps 
u 


FA 10.16 Airflow 单 节点 部 署 


10.6.4 Airflow 多 节点 〈 集 群 ) BS 
在 稳定 性 要 求 较 高 的 场景 ， 如 金融 交易 系统 中 ， 一 般 采 用 集群 、 高 可 用 的 方式 来 部 署 。 
Apache-Airflow 同样 支持 集群 、 高 可 用 的 部 署 , Airflow 的 守护 进程 可 分 布 在 多 台 机 器 上 运行 ， 
架构 如 图 10.17 所 示 。 
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架构 如 图 10.16 


第 10 章 任务 调度 神器 Airflow 


| Worker Node (1) | | Worker Node (2) | 


图 10.17 Airflow 集群 部 署 


这 样 做 有 以 下 好 处 。 


€ ATA: 如 果 一 个 worker 节点 崩溃 或 离线 时 ， 集 群 仍 可 以 被 控制 ， 同 时 其 他 worker 
节点 的 任务 仍 会 被 执行 。 

€ JARRE: 如 果 工 作 流 中 有 一 些 内 存 密 集 型 的 任务 ,最 好 是 分 布 在 多 台 机 器 上 运行 ， 
以 便 得 到 更 快 的 执行 。 


10.6.5 ”扩展 worker 节点 
扩展 worker 节点 有 以 下 两 种 方式 。 


€ KFR: 可 以 通过 向 集群 中 添加 更 多 worker 节点 来 水 平 扩展 集群 ， 并 使 这 些 新 节 
点 指向 同一 个 元 数据 库 ， 从 而 分 发 处 理 过 程 。 由 于 worker 不 需要 在 任何 守护 进程 注 
册 即 可 执行 任务 ， 因 此 worker 节点 可 以 在 不 停机 、 不 重启 服务 的 情况 下 进行 扩展 ， 
也 就 是 说 可 以 随时 扩展 。 

© BAP KR: 可 以 通过 增加 单个 worker 节点 的 守护 进程 数 来 重 直 扩展 集群 。 可 以 通过 
修改 Airflow 的 配置 文件 -{AIRFLOW_HOME}/airflow.cfg 中 celeryd_concurrency 的 值 
来 实现 。 例 如 : 


celeryd concurrency = 30 


我 们 可 以 根据 实际 情况 ， 如 集群 上 运行 的 任务 性 质 、CPU 的 内 核 数量 等 ， 增 加 并 发 进程 
的 数量 以 满足 实际 需求 。 


10.6.6 ”扩展 Master 节点 


还 可 以 向 集群 中 添加 更 多 主 节点 ， 以 扩展 主 节点 上 运行 的 服务 。 我 们 可 以 扩展 webserver 
守护 进程 ， 以 防止 太 多 的 HTTP 请 求 出 现在 一 台 机 器 上 ， 或 者 想 为 webserver 的 服务 提供 更 高 
的 可 用 性 。 需 要 注意 的 是 , 每 次 只 能 运行 一 个 scheduler 守护 进程 , 如 果 有 多 个 scheduler 运行 ， 
就 有 可 能 一 个 任务 被 执行 多 次 , 将 会 导致 工作 流 因 重复 运行 而 出 现 一 些 问题 。 如 图 10.18 所 示 
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为 扩展 Master 节点 的 架构 图 。 


"3 


Master Node (2) 


Worker Node (1) Worker Node (2) Worker Node (N) Master Node (1) P 
jx: Reus 
= 
= 


FA 10.18 扩展 Master 节点 
看 到 这 里 ， 可 能 会 有 人 问 ，scheduler 不 能 同时 运行 两 个 ， 那 么 运行 scheduler 的 节点 一 旦 
出 现 问题 ， 任 务 不 就 停止 运行 了 吗 ? 
这 是 一 个 非常 好 的 问题 ， 现 在 已 经 有 解决 方案 了 ， 我 们 可 以 在 两 台 机 器 上 部 署 scheduler， 
只 运行 一 台 机 器 上 的 scheduler 守护 进程 ， 一 旦 运行 sheduler 守护 进程 的 机 器 出 现 故障 ， 立 刻 
启动 另 一 台 机 器 上 的 scheduler。 我 们 可 以 借助 第 三 方 组 件 airflow-scheduler-failover-controller 
实现 scheduler 的 高 可 用 ， 具 体 步骤 如 下 。 


第 一 步 : 下载 failover. 


git clone 
https://github.com/teamclairvoyant/airflow-scheduler-failover-controller 


第 二 步 : 使 用 pip 进行 安装 。 
cd {AIRFLOW FAILOVER CONTROLLER HOME} 
pip install -e . 


第 三 步 : 初始 化 failover。 


Scheduler failover controller init 


pes HF failover 初始 化 时 会 向 airflow.cfg 中 追加 内 容 ， 因 此 需要 先 安装 Airflow 并 初始 化 。 J 


第 四 步 : 配置 failover。 


scheduler nodes in cluster= hostl,host2 
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host name 可 以 通过 scheduler failover controller get_current_host 命令 获得 。 | 


ü 


第 五 步 : 配置 安装 failover 机 器 之 间 的 免 密 登录 ， 配 置 完成 后 ， 可 以 使 用 如 下 命令 进行 验证 。 


scheduler failover controller test_connection 


第 六 步 : 启动 failover。 


scheduler failover controllerstart 


因此 ， 更 为 健壮 的 架构 图 如 图 10.19 所 示 。 


[ Node 
Interaction 


| eee 


Worker Node (1) | Worker Node (2) Worker Node (N) Master Node (1) 


| Master Node (2) 


C sornenzz 


图 10.19 ”健壮 的 架构 


10.6.7 Airflow 集群 部 署 的 具体 步骤 
假定 各 节点 运行 的 守护 进程 如 下 。 


€ = master! 节点 运行 webserver、scheduler。 

€ = master2 节点 运行 webserver。 

€  workerl 节点 运行 worker。 

€  worker2 节点 运行 : worker. 

假定 队列 服务 已 启动 并 处 于 运行 中 CRabbitMQ. Redisetc) (安装 RabbitMQ 方法 可 参 
见 :http://site.clairvoyantsoft.com/installing-rabbitmq/ ) ， 如 果 正 在 使 用 RabbitMQ ， 则 推荐 
RabbitMQ 也 做 成 高 可 用 的 集群 部 署 ， 并 为 RabbitMQ 实例 配置 负载 均衡 。 

具体 步骤 如 下 : 
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第 一 步 : 在 所 有 需要 运行 守护 进程 的 机 器 上 安装 apache-airflow。 
第 二 步 : 修改 {AIRFLOW_HOME}/airflow.cfg 文件 ， 确 保 所 有 机 器 使 用 同一 份 配置 文件 。 


修改 Executor 为 CeleryExecutor。 


executor = CeleryExecutor 


指定 元 数据 库 (metestore)。 


Sql alchemy conn = mysql://{USERNAME} : {PASSWORD}@{MYSQL HOST} :3306/airflow 


设置 中 间 人 (broker)。 如 果 使 用 RabbitMQ: 
broker url = amqp://guest:guest@{RABBITMQ HOST}:5672/ 
如 果 使 用 Redis: 


broker url = redis://(REDIS HOST):6379/0 间 使 用 数据 库 0 


设置 结果 存储 后 端 backend。 


celery result backend = 
db+mysql : // {USERNAME} : (PASSWORD) € {MYSQL HOST}:3306/airflow #4#A@ WAT UL (E HH] 
Redis :celery result_backend =redis://{REDIS HOST}:6379/1 


第 三 步 : 在 master] 和 master2 上 部 署 工作 流 (DAGs) o 
第 四 步 : 在 masterl 上 初始 Airflow 的 元 数据 库 。 


airflow initdb 


SHA: 在 master] 上 启动 相应 的 守护 进程 。 


airflow webserver 
airflow scheduler 


第 六 步 : 在 master2 上 启动 Web Server. 


airflow webserver 


第 七 步 : 在 workerl 上 和 worker2 上 启动 worker。 


airflow worker 


第 八 步 : 使 用 负载 均衡 处 理 webserver， 可 以 使 用 Nginx、AWS 等 服务 器 处 理 webserver 的 负 
载 均衡 ， 不 在 此 详 述 。 至 此 ， 所 有 均 已 集群 或 高 可 用 部 署 ，Apache-Airflow 系统 已 坚不可摧 。 

如 果 想 了 解 更 多 详细 信息 ， 则 可 参考 官方 文档 。 

@ 官方 网 站 : https://airflow.incubator.apache.org/。 

© 安装 文档 : https://airflow.incubator.apache.org/installation.html. 

€ GitHub ©: https://github.com/apache/incubator-airflow. 


an 
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第 11 章 
Docker 容 器 技术 介绍 


本 章 介绍 Docker 容器 技术 。Docker 重新 定义 了 程序 开发 测试 、 交 付 和 部 署 的 过 程 。 在 
Docker 之 前 ， 部 署 一 套 应 用 需要 经 过 应 用 本 身 的 安装 、 依 赖 软件 的 安装 、 配 置 、 所 有 服务 的 
启动 等 一 系列 复杂 过 程 , 有 了 Docker 后 , 我 们 可 以 将 应 用 及 其 依赖 的 软件 一 起 打包 至 容器 中 ， 
实现 一 次 部 署 到 处 运行 的 效果 。 当 应 用 切换 服务 器 时 , 再 次 部 署 仅 相当 于 复制 一 个 文件 的 操作 ， 
可 以 节省 大 量 的 安装 部 署 时 间 。 可 以 做 这 样 的 类 比 : 容器 是 集装箱 ,我 们 的 应 用 都 被 打包 到 集 
RHE, Docker 是 搬运 工 ， 帮 我 们 把 应 用 运输 到 世界 各 地 ， 可 以 直接 运行 ， 而 且 速度 非常 快 ， 
与 虚拟 机 相 比 更 节省 系统 资源 。Docker 已 是 现代 化 运 维 不 可 或 缺 的 技术 之 一 


Docker 概述 


随 着 云 计 算 技 术 的 深入 发 展 , 使 用 虚拟 服务 器 代 蔡 传统 的 物理 服务 器 越 来 越 普遍 。 服 务 器 
虚拟 化 的 思想 是 在 性 能 强劲 的 服务 器 上 运行 多 个 虚拟 机 , 每 个 虚拟 机 运行 独立 的 操作 系统 与 相 
应 的 软件 。 通 过 虚拟 机 管理 器 (Virtual Machine Manager) 可 以 隐藏 真实 机 器 的 具体 物理 配置 ， 
将 其 作为 一 个 资源 地， 动态 地 为 虚拟 机 分 配 CPU、 内 存 、 磁 盘 等 资源 ， 以 此 达到 提高 利用 率 
的 目的 。 其 中 虚拟 机 中 运行 的 操作 系统 称 为 客户 操作 系统 (Guest OS) ， 服 务 器 运行 的 操作 系 
统称 为 主机 操作 系统 (Host OS) 。 

物理 服务 器 运行 着 主机 操作 系统 ;虚拟 机 管理 器 进行 硬件 虚拟 化 ， 向 虚拟 机 提供 CPU. 
内 存 、 网 络 、 显 卡 等 虚拟 设备 ; 虚拟 机 运行 着 客户 操作 系统 和 应 用 程序 。 尽 管 服务 器 虚拟 化 了 
虚拟 服务 器 的 管理 , 但 物理 服务 器 大 部 分 的 开销 还 是 在 硬件 虚拟 化 和 虚拟 机 客户 操作 系统 的 运 
AT Eo 

有 一 种 技术 不 进行 硬件 虚拟 化 ， 就 能 让 虚拟 机 直接 使 用 物理 服务 器 的 CPU、 存 储 、 网 络 
等 , 即 容器 技术 。 在 一 台 物 理 服务 器 上 安装 Linux 操作 系统 ， 通 过 容器 技术 创建 多 个 虚拟 服务 
器 , 这 些 虚 拟 服务 器 和 物理 服务 器 共用 Linux 内 核 ; 每 个 虚拟 服务 器 的 文件 系统 使 用 物理 服务 
器 的 文件 系统 , 但 做 了 隔离 , 看 上 去 每 个 虚拟 服务 器 都 有 自己 独立 的 文件 系统 ; 在 物理 服务 器 
上 建立 了 虚拟 网 桥 设备 , 每 个 虚拟 服务 器 通过 虚拟 网 桥 设备 连接 网 络 。 虚拟 服务 器 直接 使 用 物 
理 服务 器 的 CPU、 内 存 和 硬盘 。 由 于 没有 了 硬件 虚拟 化 和 Guest OS 的 开销 ， 因 此 每 一 台 虚 拟 
服务 器 的 性 能 接近 于 一 台 物 理 服务 器 的 性 能 。 

先 在 服务 器 上 运行 KVM 虚拟 机 , 虚拟 机 再 运行 用 户 的 应 用 程序 , 一 台 服 务 器 80% 的 资源 
开销 花费 在 硬件 虚拟 化 层 和 虚拟 机 操作 系统 Guest OS 层 上 。Docker 容器 技术 共享 服务 器 的 


Python 自动 化 运 维 快速 入 门 


Linux 操作 系统 内 核 和 文件 系统 ， 性 能 得 到 了 极 大 的 提高 ， 它 并 不 像 虚拟 机 那样 模拟 一 个 完整 
的 操作 系统 ,， 却 提供 虚拟 机 一 样 的 效果 。 如 果 说 虚拟 机 是 操作 系统 级 别 的 隔离 ,那么 容器 就 是 
进程 级 别 的 隔离 ， 可 以 想象 这 种 级 别 隔离 的 优点 ， 无 疑 是 快速 的 、 节 省 资源 的 。 

Docker 是 对 Linux 容器 的 封装 , 提供 简单 实用 的 用 户 接口 , 是 目前 比较 流行 的 Linux 容器 
解决 方案 。 

Docker 是 开源 的 应 用 容器 引擎 ， 让 开发 者 可 以 打包 他 们 的 应 用 及 依赖 包 到 一 个 可 移植 的 
容器 中 , 然后 发 布 到 任何 流行 的 Linux 机 器 上 , 也 可 以 实现 虚拟 化 。 容 器 是 完全 使 用 沙 箱 机 制 ， 
相互 之 间 不 会 有 任何 接口 。 


11,2 Docker 解决 什么 问题 


(1) 解决 虚拟 机 资源 消耗 问题 。 

服务 器 操作 系统 上 运行 着 虚拟 机 , 虚拟 机 上 运行 着 客户 操作 系统 , 客户 操作 系统 上 运行 着 
用 户 的 应 用 程序 ， 一 台 服务 器 80% 的 资源 开销 都 花费 在 了 硬件 虚拟 化 和 客户 机 操作 系统 本 身 。 
如 图 11.1 所 示 ， 如 果 采 用 Docker 容器 技术 ， 容 器 上 运行 着 虚拟 服务 器 ， 虚 拟 服 务 器 中 运 
行 着 用 户 的 应 用 程序 , 虚拟 服务 器 和 服务 器 操作 系统 使 用 同一 内 核 , 虚拟 服务 器 的 文件 系统 使 
用 物理 服务 器 的 文件 系统 , 但 做 了 隔离 , 看 上 去 每 个 虚拟 服务 器 都 有 自己 独立 的 文件 系统 ; 在 
物理 服务 器 上 建立 了 虚拟 网 桥 设备 , 每 个 虚拟 服务 器 通过 虚拟 网 桥 设备 连接 网 络 。 由 于 虚拟 服 
务 器 并 不 对 硬件 进行 虚拟 化 , 因此 没有 硬件 虚拟 化 和 客户 机 操作 系统 占用 的 资源 消耗 , 每 一 台 
虚拟 服务 器 的 性 能 大 大 提升 。 

一 台 普 通 家 用 电脑 运行 一 个 Linux 虚拟 机 可 能 非常 卡 顿 ， 却 可 以 使 用 Docker 虚拟 出 几 十 
甚至 上 百 台 虚拟 的 Linux 服务 器 。 如 果 换 成 性 能 强劲 的 服务 器 ， 使 用 Docker 就 可 以 提供 私有 


云 服 务 了 。 
虚拟 机 1 虚拟 机 2 虚拟 机 3 
虚拟 机 架构 容器 架构 
图 11.1 虚拟 机 架构 与 容器 架构 区 别 
(2) 快速 部 署 。 


软件 开发 的 难题 在 于 环境 配置 ， 在 自己 电脑 上 运行 的 软件 ， 换 一 台 机 器 可 能 就 无 法 运行 ， 
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除非 保证 操作 系统 的 设置 正确 , 以 及 各 种 组 件 和 库 的 正确 安装 。 比 如 部 署 一 个 Java 开发 的 Web 
系统 ， 计 算 机 必须 安装 Java 和 正确 的 环境 变量 ， 可 能 还 需要 安装 Tomcat、Nginx。 换 一 台 机 
器 就 要 重新 部 署 一 次 。 

使 用 Docker 可 以 将 应 用 程序 及 依赖 打包 在 一 个 文件 里 (Docker 镜像 文件 ) ， 运 行 这 个 文 
件 就 会 启动 虚拟 服务 器 ， 在 虚拟 服务 器 启动 应 用 程序 或 服务 ， 就 像 在 真实 物理 机 上 运行 一 样 。 
有 了 Docker， 就 可 以 一 次 部 署 处 处 运行 ， 也 可 以 用 于 自动 化 发 布 。 

G) 提供 一 次 性 的 环境 

本 地 测试 他 人 的 软件 、 持续 集成 时 提供 单元 测试 和 构建 的 环境 , 启动 或 关闭 一 个 虚拟 服务 
器 就 像 启动 或 关闭 一 个 进程 一 样 简单 、 快 速 。 

(4) 提供 弹性 的 云 服务 。 

因为 Docker 容器 可 以 随 开 随 关 ， 所 以 很 适合 动态 扩容 和 缩 容 。 

C5) 组 建 微服 务 架 构 。 

通过 多 个 容器 , 一 台 机 器 可 以 跑 很 多 个 虚拟 服务 器 , 因此 在 一 台 机 器 上 就 可 以 模拟 出 微服 
务 架 构 ， 也 可 以 模拟 出 分 布 式 架构 。 


1 1.3 Docker 的 安装 部 署 与 使 用 


本 节 主 要 介绍 在 Ubuntu 18.04 系统 下 Docker 的 安装 与 使 用 。 其 他 操作 系统 请 参考 官方 文 
Pi: https://docs.docker.com/. 


11.3.1 安装 Docker 引擎 
获取 最 新 版 本 的 Docker 安装 包 。 


aaron@ubuntu:~$ wget -qO- https://get.docker.com/ | sh 
执行 上 述 命令 ， 输 入 当前 用 户 密码 ， 即 可 下 载 最 新 版 的 Docker 安装 包 并 自动 安装 。 安 装 
完成 后 有 一 个 提示 : 


If you would like to use Docker as a non-root user, you should now consider 
adding your user to the "docker" group with something like: 


sudo usermod -aG docker aaron 
Remember that you will have to log out and back in for this to take effect! 
WARNING: Adding a user to the "docker" group will grant the ability to run 
containers which can be used to obtain root privileges on the 
docker host. 
Refer to 


https: //docs.docker.com/engine/security/security/#docker—daemon-attack-surface 
for more information. 


以 非 root 用 户 直接 运行 Docker 时 ， 需 要 执行 : 
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sudo usermod -aG docker aaron 


将 用 户 aaron 添加 到 docker 用 户 组 中 ， 然 后 重新 登录 ， 否 则 会 报 下 面 的 错误 。 
docker: Got permission denied while trying to connect to the Docker daemon socket 
at unix:///var/run/docker.sock: Post 
http: //%2Fvar%2Frun%2Fdocker.sock/v1.38/containers/create: dial unix 
/var/run/docker.sock: connect: permission denied. 
See 'docker run —-help'. 


执行 下 列 命令 启动 Docker 引擎 。 


aaron@ubuntu:~$ sudo service docker start 


安装 成 功 后 已 默认 设置 开机 启动 并 自动 启动 。 如 果 要 手动 设置 ， 则 执行 下 面 的 命令 : 


sudo systemctl enable docker 
sudo systemctl start docker 


测试 运行 。 
aaron@ubuntu:~$ sudo docker run hello-world 
11.3.2 使 用 Docker 
使 用 之 前 先 来 了 解 一 下 Docker 的 架构 ， 如 图 11.2 所 示 。 


Clients Hosts Registries 


machine 


FA 11.2 Docker 的 架构 
其 中 : 


€ Docker 镜像 (image ) 是 存放 在 Docker 仓库 (Registry) 的 文件 ， 用 于 创建 Docker 
容器 的 模板 。 

€ Docker 容器 是 独立 运行 的 一 个 或 一 组 应 用 ， 可 以 理解 为 前 面 介绍 的 虚拟 服务 器 。 

€ Docker 主机 是 一 个 物理 或 虚拟 的 机 器 ， 用 于 执行 Docker 守护 进程 和 容器 。 

€ Docker 客户 端 通过 命令 行 或 其 他 工具 使 用 DockerAPI 5 Docker 的 守护 进程 通信 。 


作为 用 户 ， 我 们 直接 使 用 的 是 Docker 客户 端 。 
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11.3.3 Docker 命令 的 使 用 方法 


(1) 查看 Docker 命令 的 帮助 信息 。 


docker --help #docker 全 部 命令 帮助 信息 
docker COMMAND --help #docker 具体 命令 COMMAND 的 帮助 信息 


(2) 查看 Docker 信息 。 
docker info 
这 条 命令 可 以 看 到 容器 的 池 、 已 用 数据 大 小 、 总 数据 大 小 ， 基 本 容器 大 小 、 当 前 运行 容器 


NEN 


(3) 搜索 镜像 ， 从 网 络 中 搜索 别人 做 好 的 容器 镜像 ， 


docker search ubuntu 
docker search centos 


运行 结果 如 图 11.3 所 示 。 


图 11.3 docker search 结果 
从 这 里 可 以 看 出 有 的 镜像 已 经 集成 了 PHP、Java、Ansible 等 应 用 ， 我 们 也 可 以 制作 包含 
自己 应 用 或 服务 的 镜像 文件 ， 将 此 文件 传 给 别人 ， 别 人 即 可 直接 使 用 Docker 打开 容器 ， 不 需 
要 任何 额外 的 操作 ， 也 不 会 像 虚拟 机 那样 消耗 资源 ， 非 常 方便 。 
(4) 从 网 络 中 下 载 别人 做 好 的 容器 镜像 。 


docker pull centos 
docker pull ubuntu 


(5) 导入 下 载 好 的 容器 镜像 文件 。 


docker load < image xxx.tar 
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(5) 查看 所 有 镜像 。 


docker images 
docker images -a 


(6) 检查 镜像 。 


docker inspect ubuntu 
可 以 看 到 容器 镜像 的 基本 信息 。 
CI) 删除 镜像 ， 通 过 镜像 的 名 称 或 id 来 指定 删除 。 


docker rmi ubuntu 


(8) 删除 全 部 镜像 。 


docker rmi $(docker images -q) 


(9) 显示 镜像 历史 。 
docker history ubuntu 
(10) 运行 容器 。 

docker run ubuntu #docker run 容器 名 称 

Docker 容器 可 以 理解 为 在 沙 盒 中 运行 的 进程 ， 这 个 沙 盒 包 含 了 该 进程 运行 所 必需 的 资源 ， 
包括 文件 系统 、 系 统 类 库 、shell 环境 等 。 但 这 个 沙 盒 默认 是 不 会 运行 任何 程序 的 ， 需 要 在 沙 
盒 中 运行 一 个 进程 来 启动 某 一 个 容器 。 因 为 这 个 进程 是 该 容器 的 唯一 进程 , 所 以 当 该 进程 结束 
时 ， 容 器 也 会 完全 停止。 

运行 Ubuntu 容器 并 进入 交互 式 环境 。 
aaron@ubuntu:~$ docker run -i --name="ubuntul" --hostname-"ubuntul" ubuntu /bin/sh 
cat /etc/hosts 
127.0.0.1 localhost 
::1 localhost ip6-localhost ip6-loopback 
fe00::0 ip6-localnet 
ff00::0 ip6-mcastprefix 
ff02::1 ip6-allnodes 
ff02::2 ip6-allrouters 
172.17.0.2 ubuntul 
whoami 
root 
uname -a 


Linux ubuntul 4.15.0-34-generic #37-Ubuntu SMP Mon Aug 27 15:21:48 UTC 2018 x86 64 
x86 64 x86 64 GNU/Linux 


上 述 命令 创建 了 一 个 名 为 ubuntul 的 容器 ， 设 置 容器 的 主机 名 为 ubuntul 。 执 行 /bin/sh 命 
令 后 ， 我 们 打印 了 hosts 文件 的 内 容 ， 并 查看 了 内 核 版 本 《与 本 机 操作 系统 版 本 一 致 ) 。 这 里 
可 以 使 用 各 种 Linux 命令 ,就 像 在 新 的 操作 系统 中 使 用 命令 一 样 。 利 用 同样 的 方法 ,在 新 的 终 
端 创建 一 个 名 为 ubuntu2 的 容器 ， 并 使 用 
docker ps 


查看 正在 运行 的 容器 。 输 入 exit 退出 容器 ， 执 行 
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docker run -d ubuntu 
表示 在 后 台 运行 ubuntu 容器 ,执行 后 会 出 现 一 组 字母 和 数字 组 成 的 字符 串 ， 为 容器 的 ido 
注意 ， 容 器 必须 要 有 持续 运行 的 进程 存在 ， 否 则 容器 会 很 快 自动 退出 。 
(11) 运行 容器 并 指定 MAC 地 址 。 


docker run -d --name-'centos3' --hostname-'centos3' 
--mac-address-"02:42:AC:11:00:24" docker-centos6.10-hadoop-spark 


(12) 列 出 所 有 的 容器 。 
docker ps -a 

(13) 列 出 最 近 一 次 启动 的 容器 。 
docker ps -1 

(14) 检查 容器 。 
docker inspect centosl 

可 以 获取 容器 的 相关 信息 。 

(15) 获取 容器 CID. 


docker inspect -f '((.Id))' centosl 


(16) 获取 容器 PID. 
docker inspect -f '((.State.Pid))' centosl 


C17) 获取 容器 IP. 

docker inspect -f '{{.NetworkSettings.IPAddress}}' centosl 
(18) 获取 容器 网 关 。 

docker inspect -f '{{.NetworkSettings.Gateway}}' centosl 
(19) 获取 容器 MAC. 

docker inspect -f '{{.NetworkSettings.MacAddress}}' centosl 


(200 查看 容器 IP 地 址 。 


docker inspect -f '{{.NetworkSettings.IPAddress}}' centosl 


(21) 连接 容器 。 
ssh 容器 的 IP 地 址 


输入 密码 (123456) 即 可 进入 虚拟 服务 器 。 

容器 运行 后 ， 可 以 通过 另 一 种 方式 进入 容器 内 部 。 
docker exec -it centos /bin/sh 

(22) 查看 容器 运行 过 程 中 的 日 志 。 


docker logs centosl 
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(23) 列 出 一 个 容器 里 面 被 改变 的 文件 或 目录 。 


docker diff centosl 


列表 会 显示 出 三 个 事件 :A 增加 的 ; B 删除 的 ; C 被 改变 的 和 初始 容器 镜像 项 目 。 用 户 
或 系统 增加 /修改 /删除 了 哪些 目录 文件 ， 都 可 以 查看 到 。 


(24) 查看 容器 里 占用 资源 较 多 的 进程 。 


docker top centosl 


(25) 复制 容器 里 的 文件 /目录 到 本 地 服务 器 。 


docker cp centosl:/etc/passwd /tmp/ 
ls /tmp/passwd 


通过 网 络 TP. 地 址 也 可 以 将 容器 的 文件 复制 到 服务 器 ， 这 种 方式 比较 方便 。 


(26) 停止 容器 。 


docker stop centosl 


(27) 停止 所 有 容器 。 


docker kill $(docker ps -a -q) 


(28) 启动 容器 。 


docker start centosl 


(29) 删除 单个 容器 。 


docker stop centosl 
docker rm centosl 


删除 容器 之 前 要 先 停止 该 容器 的 运行 。 


(30) 删除 所 有 容器 。 


docker kill $(docker ps -a -q) 
docker rm $ (docker ps -a -q) 


11.4 wol 


为 了 能 够 保存 (持久 化 ) 数 据 及 共享 容器 之 间 的 数据 ,Docker 提出 了 卷 的 概念 。 卷 (Volume) 
就 是 容器 的 特定 目录 ， 该 目录 下 的 文件 保存 在 宿主 机 上 ， 而 不 是 容器 的 文件 系统 内 。 
数据 卷 是 可 供 一 个 或 多 个 容器 使 用 的 特殊 目录 , 它 绕 过 容器 默认 的 文件 系统 , 可 以 提供 很 


多 有 月 
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(1) 数据 卷 可 以 在 容器 之 间 共 享 和 重用 。 
(2) 对 数据 卷 的 修改 会 立刻 生效 。 

(3) 对 数据 卷 的 更 新 ， 不 会 影响 镜像 。 
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(4) 数据 卷 默认 会 一 直 存在 ， 即 使 容器 被 删除 。 


| 数据 卷 的 使 用 ,类似 于 Linux 下 对 目录 进行 挂 载 mount, 容器 中 被 指定 为 挂 载 点 的 文件 ( 目 
[ RY) 会 隐藏 掉 ， 能 显示 是 挂 载 的 数据 卷 。 


创建 并 使 用 数据 卷 。 


mkdir -p /root/volumel 

mkdir -p /root/volume2 

docker run -d -v /volumel --name-'centos5' docker-centos6.10-hadoop-spark 
docker run -d -v /root/volumel:/volumel --name-'centos6' 
docker-centos6.10-hadoop-spark 

docker run -d -v /root/volumel:/volumel -v /root/volume2:/volume2 --name-'centos7' 
docker-centos6.10-hadoop-spark 

docker run -d -v /root/volumel:/volumel:ro --name-'centos8"' 
docker-centos6.10-hadoop-spark 


使 用 docker run 命令 创建 容器 , 指定 -v 标记 创建 一 个 数据 卷 并 挂 载 到 容器 里 , 可 以 挂 载 多 
个 数据 卷 , 也 可 以 设置 卷 的 只 读 属性 , 还 可 以 不 指定 服务 器 映射 的 目录 , 由 系统 自动 指定 目录 ， 
通过 docker inspect 查看 映射 的 路 径 。 分 别 进入 这 些 容器 ， 查 看 /volumel、/volume2 目录 ， 创 
建文 件 并 验证 。 


11.5 数据 卷 共享 


如 果 要 授权 一 个 容器 访问 另 一 个 容器 的 数据 卷 ， 就 可 以 使 用 -volumes-from 参数 来 执行 。 
如 果 有 一 些 持续 更 新 的 数据 需要 在 容器 之 间 共享 ， 那 么 最 好 创建 数据 卷 容器 。 

数据 卷 容器 ， 其 实 就 是 一 个 正常 的 容器 ， 是 专门 用 来 提供 数据 卷 供 其 他 容器 挂 载 的 。 

(1) 创建 一 个 名 为 dbdata 的 数据 卷 容器 。 


docker run -d -v /dbdata --name dbdata docker-centos6.10-hadoop-spark 


(2) 在 其 他 容器 中 使 用 - volumes-from 来 挂 载 dbdata 容器 中 的 数据 卷 。 


docker run -d --volumes-from dbdata --name dbl docker-centos6.10-hadoop-spark 
docker run -d --volumes-from dbdata --name db2 docker-centos6.10-hadoop-spark 


这 样 就 可 以 实现 容器 之 间 的 数据 共享 了 。 


11.6 自制 镜像 并 发 布 


(1) 保存 容器 并 修改 ， 提 交 一 个 新 的 容器 镜像 。 


docker commit centosl centoslll 


将 现 有 的 容器 提交 形成 一 个 新 的 容器 镜像 ， 使 用 docker images 可 以 看 到 centos1 11 镜像 。 
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通过 该 方法 ， 可 以 创建 一 个 新 的 容器 镜像 。 

docker images 

REPOSITORY TAG IMAGE ID CREATED SIZE 

centoslll latest d691a75ee371 23 minutes ago 501.5 MB 


(2) 根据 新 容器 镜像 创建 容器 并 运行 。 
docker run -d --name-'centoslll' centos111 
(3) 检查 容器 ， 查 看 信息 。 
docker inspect centoslll 
(4) 导出 和 导入 镜像 。 
当 把 一 台 机 器 上 的 镜像 迁移 到 另 一 台 机 器 上 时 ， 需 要 导出 与 导入 镜像 。 
机 器 A: 
docker save docker-centos6.10-hadoop-spark > docker-centos6.10-hadoop-spark2.tar 
或 
docker save -o docker-centos6.10-hadoop-spark docker-centos6.10-hadoop-spark2.tar 


接 下 来 使 用 scp 命令 与 其 他 方式 将 docker-centos6. 10-hadoop-spark2.tar 复制 到 机 器 B 上 。 
机 器 B: 


docker load < docker-centos6.10-hadoop-spark2.tar 
或 

docker load -i docker-centos6.10-hadoop-spark2.tar 
(5) 发 布 容器 镜像 。 


docker push centos6.8-lampl 


可 将 容器 发 布 到 网 络 中 。 


11.7 Docker 网 络 


Docker 启动 时 会 在 宿主 机 器 上 创建 一 个 名 为 docker0 的 虚拟 网 络 接 口 ， 它 会 从 RFC1918 
定义 的 私有 地 址 中 随机 选择 一 个 主机 不 冲突 的 地 址 和 子 网 掩 码 , 并 将 其 分 配给 docker0。 例如 ， 
当 启 动 Docker 后 选择 docker0 了 172.17.0.1/16， 一 个 16 位 的 子 网 掩 码 给 容器 提供 了 65534 个 
卫 地 址 。 

docker0 并 不 是 正常 的 网 络 接口 ， 它 只 是 一 个 在 绑 定 到 这 上 面 的 其 他 网 卡 之 间 自 动 转发 数 
据 包 的 虚拟 以 太 网 桥 ， 可 以 使 容器 与 主机 相互 通信 、 容 器 与 容器 相互 通信 。 

Docker 每 创建 一 个 容器 ， 就 会 创建 一 对 对 等 接口 CPeerInterface) ， 类 似 于 一 个 管子 的 两 
端 ， 在 一 边 可 以 收 到 另 一 边 发 送 的 数据 包 。Docker 会 将 对 等 接口 中 的 一 个 作为 eth0 接口 连接 
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到 容器 上 ， 并 使 用 类 似 vethAQI2QT 这 样 的 唯一 名 称 来 持 有 另 一 个 ， 该 名 称 取决 于 主机 的 命名 
空间 。 通 过 将 所 有 veth* 接 口 绑 定 到 docker0 桥接 网 卡 上 ,Docker 在 主机 和 所 有 Docker 容器 间 
创建 一 个 共享 的 虚拟 子 网 。 


11.7.1 Docker 的 网 络 模式 
Docker 提供 了 以 下 4 种 网 络 模式 。 


(1) host 模式 ， 使 用 -net=host 指定 。 

(2) container 模式 ， 使 用 -net=container:-NAME or ID 指定 。 
(3) none 模式 ， 使 用 -net=none 指定 。 

(4) bridge 模式 ， 使 用 -net=bridge 指定 ， 默 认 设 置 。 


下 面 分 别 简单 介绍 一 下 这 4 种 网 络 模式 。 


€ host HEX: 如 果 启 动容 器 时 使 用 host 模 式 ,那么 这 个 容器 将 与 宿主 机 共用 一 个 Network 
Namespace。 容 器 将 不 会 虚拟 出 自己 的 网 卡 、 配 置 自己 的 IP 等 ， 而 是 使 用 宿主 机 的 
IP 和 端口 进行 通信 。 但 是 容器 的 其 他 方面 ， 如 文件 系统 、 进 程 列表 等 还 是 与 宿主 机 
隔离 的 。 

@ container 模式 : container 模式 指定 新 创建 的 容器 和 已 经 存在 的 容器 共享 一 个 Network 
Namespace， 而 不 是 与 宿主 机 共享 。 新 创建 的 容器 不 会 创建 自己 的 网 卡 、 配 置 自己 的 
JP， 而 是 与 一 个 指定 的 容器 共享 了 PP、 端 口 范围 等 。 同 样 ， 两 个 容器 除了 网 络 方面 ， 
其 他 的 如 文件 系统 、 进 程 列 表 等 还 是 隔离 的 。 两 个 容器 的 进程 可 以 通过 lo 网 卡 设备 
通信 。 

€ none 模式 : 使 用 none HA, Docker 容器 就 会 拥有 自己 的 Network Namespace， 但 是 
HAA Docker 容器 进行 任何 网 络 配置 。 也 就 是 说 ， 这 个 Docker 容器 没有 网 卡 、IP、 
路 由 等 信息 ， 需 要 我 们 自己 为 Docker 容器 添加 网 卡 、 配 置 卫 等 。 

@ bridge 模式 : bridge 模式 是 Docker 默认 的 网 络 设置 ， 为 每 一 个 容器 分 配 Network 
Namespace. ik X IP 等， 并 将 主机 上 的 Docker 容器 连接 到 虚拟 网 桥 docker0 上 。 


Docker 自身 的 网 络 功能 比较 简单 ， 不 能 满足 很 多 复杂 的 应 用 场景 。 因 此 ， 有 很 多 开源 项 
目 用 来 改善 Docker 的 网 络 功能 ， 如 pipework, Weave. Flannel 等 。 
pipework 是 由 Docker 的 工程 师 Jérôme Petazzoni 开发 的 一 个 Docker 网 络 配置 工具 ， 由 两 
百 多 行 shell 实现 ， 方 便 易 用 ， 使 用 方法 如 下 。 
(1) 安装 pipework。 


git clone https://github.com/jpetazzo/pipework 
cp pipework/pipework /bin/ 


(2) 运行 容器 。 


docker run -d --net-'none' --name-'centos9' docker-centos6.10-hadoop-spark 
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使 用 pipework 配置 容器 centos9 并 连 到 网 桥 docker0 E, IP 地 址 后 面 加 @ 指 定 网 关 。 


pipework docker0 centos9 172.17.0.100/16@172.17.0.1 


11.7.2. Docker 网 络 端口 映射 
如 果 容 器 使 用 docker0 虚拟 网 络 ， 那 么 容器 的 网 络 是 172.17.0.0/016， 容 器 可 以 通过 NAT 
方式 访问 外 网 ， 但 外 网 不 能 访问 内 网 。 如 果 容 器 使 用 br0 虚拟 网 络 ， 那 么 容器 和 服务 器 可 以 在 
同一 个 网 络 地址 段 ， 容 器 可 以 访问 外 网 ， 外 网 也 可 以 访问 容器 网 络 。 
对 于 使 用 docker0 虚拟 网 络 的 容器 ， 可 以 通过 端口 映射 的 方式 让 外 网 访问 容器 某 些 端口 。 
(OD 运行 容器 。 
docker run -d -p 38022:22 --name='centos10' docker-centos6.10-hadoop-spark 
(2) 连接 容器 。 
ssh localhost -p 38022 
在 其 他 服务 器 上 通过 访问 物理 服务 器 加 端口 即 可 访问 容器 , 可 以 一 次 映射 多 个 端口 。 运 行 
容器 : 


docker run -d -p 38022:22 -p 38080:80 --name-'centosll' 
docker-centos6.10-hadoop-spark 


其 实现 原理 是 在 服务 器 上 通过 iptables 转发 ， 也 可 以 通过 iptables 转发 整个 容器 IP 地 址 。 


1 1 .8 Docker 小 结 


由 于 容器 是 进程 级 别 的 ， 相 比 虚拟 机 有 很 多 优势 。 


(1) 启动 快 。 

容器 里 面 的 应 用 直接 就 是 底层 系统 的 一 个 进程 ， 而 不 是 虚拟 机 内 部 的 进程 。 启 动容 器 相当 
于 启动 本 机 的 一 个 进程 ， 而 不 是 启动 一 个 操作 系统 ， 速 度 就 会 快 很 多 。 

(2) 资源 占用 少 。 

容器 只 占用 需要 的 资源 , 不 占用 没有 用 到 的 资源 , 而 虚拟 机 由 于 是 完整 的 操作 系统 , 不 可 
避免 要 占用 所 有 资源 。 另 外 ， 多 个 容器 可 以 共享 资源 ， 虚 拟 机 都 是 独 享 资源 。 

(3) 体积 小 。 

容器 只 要 包含 用 到 的 组 件 即 可 , 而 虚拟 机 是 整个 操作 系统 的 打包 , 所 以 容器 文件 比 虚拟 机 
文件 要 小 很 多 。 


容器 类 似 于 轻 量 级 的 虚拟 机 ， 能 够 提供 虚拟 化 的 环境 ， 成 本 开销 却 小 得 多 。 
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